Python模拟登陆教务处爬取课程表

最近正方教务处貌似升级了，网上的代码都不好使了。具体原因应该是cookie和验证码不同步。每次模拟登陆新网址时总是objective moved to here.下面是用request模块模拟登陆教务处系统的代码，并抓取课程表。（课程表直接输出来的没有输入Excel也没有美化）

代码一共有60行，注意账号和密码要自己输入。

正方的MIS系统基本上都是http://服务器地址/default2.aspx

验证码地址为http://服务器地址/CheckCode.aspx?

代码：

from lxml import etree
import requests

studentnumber = "*******"
password = "*******"
s = requests.session()
url = "http://jw3.edu.cn/default2.aspx"
response = s.get(url)
selector = etree.HTML(response.content)
__VIEWSTATE = selector.xpath('//*[@id="form1"]/input/@value')[0]
imgUrl = "http://jw3.edu.cn/CheckCode.aspx?"
imgresponse = s.get(imgUrl, stream=True)
image = imgresponse.content
try:
    with open('C://Users//dell//desktop//1.jpg' ,"wb") as jpg:
        jpg.write(image)
except IOError:
    print("IO Error\n")
code = input("验证码：")
data = {
    "__VIEWSTATE": __VIEWSTATE,
    "txtUserName": studentnumber,
    "TextBox2": password,
    "txtSecretCode": code,
    "Button1": "",
}
headers = {
    "User-Agent": "Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/49.0.2623.110 Safari/537.36",
}
response = s.post(url, data=data, headers=headers)
def getInfor(response, xpath):
    content = response.content.decode('gb2312')  # 网页源码是gb2312要先解码
    selector = etree.HTML(content)
    infor = selector.xpath(xpath)[0]
    return infor
text = getInfor(response, '//*[@id="xhxm"]/text()')
text = text.replace(" ", "")
print("你好 ", text)
kburl = "http://jw3.edu.cn/xskbcx.aspx?xh="+studentnumber+"&xm="+text[:-2]+"&gnmkdm=N121603"
print(kburl)
headers = {
    "Referer": "http://jw3.edu.cn/xs_main.aspx?xh=E21614061",
    "User-Agent": "Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/49.0.2623.110 Safari/537.36",
 }
response = s.get(kburl, headers=headers)
html = response.content.decode("gb2312")
print(html)
selector=etree.HTML(html)
content = selector.xpath('//*[@id="Table1"]/tr/td/text()')
for each in content:
    print(each)

from lxml import etree

import requests

studentnumber = "*******"

password = "*******"

s = requests.session()

url = "http://jw3.edu.cn/default2.aspx"

response = s.get(url)

selector = etree.HTML(response.content)

__VIEWSTATE = selector.xpath('//*[@id="form1"]/input/@value')[0]

imgUrl = "http://jw3.edu.cn/CheckCode.aspx?"

imgresponse = s.get(imgUrl, stream=True)

image = imgresponse.content

try:

with open('C://Users//dell//desktop//1.jpg' ,"wb") as jpg:

jpg.write(image)

except IOError:

print("IO Error\n")

code = input("验证码：")

data = {

"__VIEWSTATE": __VIEWSTATE,

"txtUserName": studentnumber,

"TextBox2": password,

"txtSecretCode": code,

"Button1": "",

}

headers = {

"User-Agent": "Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/49.0.2623.110 Safari/537.36",

}

response = s.post(url, data=data, headers=headers)

def getInfor(response, xpath):

content = response.content.decode('gb2312') # 网页源码是gb2312要先解码

selector = etree.HTML(content)

infor = selector.xpath(xpath)[0]

return infor

text = getInfor(response, '//*[@id="xhxm"]/text()')

text = text.replace(" ", "")

print("你好 ", text)

kburl = "http://jw3.edu.cn/xskbcx.aspx?xh="+studentnumber+"&xm="+text[:-2]+"&gnmkdm=N121603"

print(kburl)

headers = {

"Referer": "http://jw3.edu.cn/xs_main.aspx?xh=E21614061",

"User-Agent": "Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/49.0.2623.110 Safari/537.36",

}

response = s.get(kburl, headers=headers)

html = response.content.decode("gb2312")

print(html)

selector=etree.HTML(html)

content = selector.xpath('//*[@id="Table1"]/tr/td/text()')

for each in content:

print(each)

效果：

Python模拟登陆教务处爬取课程表

大模型AlpacaFarm分析

NLG文本评估任务或许并不需要真值或参考文本

大模型中的RepE表征工程

大模型也是一种优化器（LLM as Optimizer）

全栈开发与快速部署Demo

学术idea自动发现与生成

自回归语言模型（language model）Python实现

粉丝期待的三体电影宇宙（近四十部电影与电视剧集）

基于历史对比学习的时序知识图谱推理

泰拉瑞亚Terriaria快速部署Linux服务器

2 评论

留下评论取消回复

相关文章

2 评论

留下评论取消回复