Python使用cookielib、urllib2和pyquery模擬登陸本科教學(xué)網(wǎng)并抓取數(shù)據(jù)

tuomao 發(fā)布于2019-07-24 17:59 / 1536人閱讀

摘要：原文鏈接使用和模擬登陸本科教學(xué)網(wǎng)并抓取數(shù)據(jù)剛才好無聊，突然想起來之前做一個(gè)課表的點(diǎn)子，于是百度了起來。使用現(xiàn)在，我們已經(jīng)登錄了本科教學(xué)網(wǎng)，然后結(jié)合之前的解析就可以獲取網(wǎng)頁內(nèi)的課表了。

  原文鏈接：《Python使用cookielib、urllib2和pyquery模擬登陸本科教學(xué)網(wǎng)并抓取數(shù)據(jù)》

剛才好無聊，突然想起來之前做一個(gè)課表的點(diǎn)子，于是百度了起來。

PyQuery

剛開始，我是這樣想的：在寫微信墻的時(shí)候，用到了urllib2【兩行代碼抓網(wǎng)頁】，那么就只剩下解析html了。于是百度：python解析html。發(fā)現(xiàn)一篇好文章，其中介紹到了pyQuery。

pyQuery 是 jQuery 在Python中的實(shí)現(xiàn)，能夠以jQuery的語法來操作解析 HTML 文檔。使用前需要安裝，Mac安裝方法如下：

sudo easy_install pyquery

OK！安裝好了！

我們來試一試吧：

from pyquery import PyQuery as pq
html = pq(url=u"http://seam.ustb.edu.cn:8080/jwgl/index.jsp")
#現(xiàn)在已經(jīng)獲取了本科教學(xué)網(wǎng)首頁的html
classes = html(".haveclass")
#通過類名獲取元素
#如果你對(duì)jQuery熟悉的話，那么你現(xiàn)在肯定明白pyQuery的方便了

更多用法參見pyQuery API

urllib、urllib2

好像學(xué)會(huì)了使用pyQuery就能抓課表了呢，但是，如果你直接用我的源碼，肯定會(huì)出錯(cuò)。因?yàn)檫€沒有登錄??！

所以，在運(yùn)行這一行抓取正確的代碼之前，我們需要模擬登錄本科教學(xué)網(wǎng)。這個(gè)時(shí)候，我想起來urllib有模擬post請(qǐng)求的函數(shù)，于是我百度了：urllib post。

這是一個(gè)最簡的模擬post請(qǐng)求例子：

import urllib
import urllib2
import cookielib

cj = cookielib.CookieJar()
opener = urllib2.build_opener(urllib2.HTTPCookieProcessor(cj))
opener.addheaders = [("User-agent","Mozilla/4.0 (compatible; MSIE 7.0; Windows NT 5.1)")]
urllib2.install_opener(opener)
req = urllib2.Request("http://seam.ustb.edu.cn:8080/jwgl/Login",urllib.urlencode({"username":"41255029","password":"123456","usertype":"student"}))
req.add_header("Referer","http://xxoo.com")
resp = urllib2.urlopen(req)
#這里面用到了cookielib，我不太清楚，以后慢慢了解吧
#還用到了urllib和urllib2，urllib2大概是urllib的擴(kuò)展包【233想到了三國殺

在這個(gè)最簡的實(shí)例里，用我的校園網(wǎng)賬號(hào)向登錄頁面提交表單數(shù)據(jù)，模擬登錄。

PyQuery使用
現(xiàn)在，我們已經(jīng)登錄了本科教學(xué)網(wǎng)，然后結(jié)合之前的pyQuery解析html就可以獲取網(wǎng)頁內(nèi)的課表了。

html = pq(url=u"http://seam.ustb.edu.cn:8080/jwgl/index.jsp")
self.render("index.html",data=html(".haveclass"))

結(jié)果展示如圖：

最后：

我發(fā)現(xiàn)，pyQuery不但用于解析html非常方便，而且可以作為跨域抓取數(shù)據(jù)的工具，NICE!!!

希望對(duì)大家有幫助。

GPU云服務(wù)器云服務(wù)器 python模擬登陸 python模擬登陸csdn 如何使用web登陸和配置防火墻? python爬蟲抓取數(shù)據(jù)

文章版權(quán)歸作者所有，未經(jīng)允許請(qǐng)勿轉(zhuǎn)載,若此文章存在違規(guī)行為，您可以聯(lián)系管理員刪除。

轉(zhuǎn)載請(qǐng)注明本文地址：http://systransis.cn/yun/37534.html

發(fā)表評(píng)論

登陸后可評(píng)論

0條評(píng)論

tuomao

男|高級(jí)講師

我要關(guān)注我要私信

TA的文章

C語言每日一練——第62天：選美比賽

閱讀 1560·2021-11-25 09:43
軟件測試學(xué)習(xí)筆記_第1周第5天——缺陷管理、術(shù)語

閱讀 4112·2021-11-15 11:37
DeinServerHost：2核 AMD/4G/50G NVMe SSD/1Gbps不限流量/德國

閱讀 3231·2021-08-17 10:13
CSS 的奇技工巧：4行屬性寫出等比例盒子

閱讀 3539·2019-08-30 14:16
講清楚基礎(chǔ)系列——css布局

閱讀 3564·2019-08-26 18:37
前端路由簡介以及vue-router實(shí)現(xiàn)原理

閱讀 2515·2019-08-26 11:56
blob和base64轉(zhuǎn)文件并通過ajax上傳到服務(wù)器

閱讀 1171·2019-08-26 10:42
Chart.js使用小結(jié)_024

閱讀 648·2019-08-26 10:39

成人国产在线小视频_日韩寡妇人妻调教在线播放_色成人www永久在线观看_2018国产精品久久_亚洲欧美高清在线30p_亚洲少妇综合一区_黄色在线播放国产_亚洲另类技巧小说校园_国产主播xx日韩_a级毛片在线免费

資訊專欄INFORMATION COLUMN

上云采購季！| 2核2G4M爆款云服務(wù)器低至59元/年，更有多臺(tái)、長期優(yōu)惠，快來選購！

Python使用cookielib、urllib2和pyquery模擬登陸本科教學(xué)網(wǎng)并抓取數(shù)據(jù)

相關(guān)文章

Python定向爬蟲，模擬新浪微博登錄！

【爬蟲系列之三】URLError異常處理以及Cookie的使用

**爬蟲養(yǎng)成記 - urllib2的HTTPCookieProcessor**

Python入門網(wǎng)絡(luò)爬蟲之精華版

零基礎(chǔ)如何學(xué)爬蟲技術(shù)

發(fā)表評(píng)論

0條評(píng)論

tuomao

男|高級(jí)講師

TA的文章

C語言每日一練——第62天：選美比賽

軟件測試學(xué)習(xí)筆記_第1周第5天——缺陷管理、術(shù)語

DeinServerHost：2核 AMD/4G/50G NVMe SSD/1Gbps不限流量/德國

CSS 的奇技工巧：4行屬性寫出等比例盒子

講清楚基礎(chǔ)系列——css布局

前端路由簡介以及vue-router實(shí)現(xiàn)原理

blob和base64轉(zhuǎn)文件并通過ajax上傳到服務(wù)器

Chart.js使用小結(jié)_024

最新活動(dòng)

資訊專欄INFORMATION COLUMN

上云采購季！| 2核2G4M爆款云服務(wù)器低至59元/年，更有多臺(tái)、長期優(yōu)惠，快來選購！

Python使用cookielib、urllib2和pyquery模擬登陸本科教學(xué)網(wǎng)并抓取數(shù)據(jù)

相關(guān)文章

發(fā)表評(píng)論

0條評(píng)論

男|高級(jí)講師

TA的文章

最新活動(dòng)

上云采購季！| 2核2G4M爆款云服務(wù)器低至59元/年，更有多臺(tái)、長期優(yōu)惠，快來選購！

Python使用cookielib、urllib2和pyquery模擬登陸本科教學(xué)網(wǎng)并抓取數(shù)據(jù)