Python爬蟲使用瀏覽器的cookies：browsercookie

xuexiangjys 發(fā)布于2019-07-31 10:22 / 2942人閱讀

摘要：爬蟲和反爬蟲就是一個貓和老鼠的游戲，道高一尺魔高一丈，兩者反復(fù)糾纏。由于協(xié)議的無狀態(tài)性，登錄驗證都是通過傳遞來實(shí)現(xiàn)的。通過瀏覽器登錄一次，登錄信息的是就會被瀏覽器保存下來。模塊就是這樣一個從瀏覽器提取保存的的工具。

很多用Python的人可能都寫過網(wǎng)絡(luò)爬蟲，自動化獲取網(wǎng)絡(luò)數(shù)據(jù)確實(shí)是一件令人愉悅的事情，而Python很好的幫助我們達(dá)到這種愉悅。然而，爬蟲經(jīng)常要碰到各種登錄、驗證的阻撓，讓人灰心喪氣（網(wǎng)站：天天碰到各種各樣的爬蟲抓我們網(wǎng)站，也很讓人灰心喪氣～）。爬蟲和反爬蟲就是一個貓和老鼠的游戲，道高一尺魔高一丈，兩者反復(fù)糾纏。

由于http協(xié)議的無狀態(tài)性，登錄驗證都是通過傳遞cookies來實(shí)現(xiàn)的。通過瀏覽器登錄一次，登錄信息的cookie是就會被瀏覽器保存下來。下次再打開該網(wǎng)站時，瀏覽器自動帶上保存的cookies，只有cookies還未過期，對于網(wǎng)站來說你就還是登錄狀態(tài)的。

browsercookie模塊就是這樣一個從瀏覽器提取保存的cookies的工具。它是一個很有用的爬蟲工具，通過加載你瀏覽器的cookies到一個cookiejar對象里面，讓你輕松下載需要登錄的網(wǎng)頁內(nèi)容。

安裝

pip install browsercookie

在Windows系統(tǒng)中，內(nèi)置的sqlite模塊在加載FireFox數(shù)據(jù)庫時會拋出錯誤。需要更新sqlite的版本：
pip install pysqlite

使用方法

下面是從網(wǎng)頁提取標(biāo)題的例子：

>>> import re
>>> get_title = lambda html: re.findall("(.*?)", html, flags=re.DOTALL)[0].strip()

下面是未登錄狀況下下載得到的標(biāo)題：

>>> import urllib2
>>> url = "https://bitbucket.org/"
>>> public_html = urllib2.urlopen(url).read()
>>> get_title(public_html)
"Git and Mercurial code management for teams"

接下來使用browsercookie從登錄過Bitbucket的FireFox里面獲取cookie再下載：

>>> import browsercookie
>>> cj = browsercookie.firefox()
>>> opener = urllib2.build_opener(urllib2.HTTPCookieProcessor(cj))
>>> login_html = opener.open(url).read()
>>> get_title(login_html)
"richardpenman / home — Bitbucket"

上面是Python2的代碼，再試試 Python3:

>>> import urllib.request
>>> public_html = urllib.request.urlopen(url).read()
>>> opener = urllib.request.build_opener(urllib.request.HTTPCookieProcessor(cj))

你可以看到你的用戶名出現(xiàn)在title里面了，說明browsercookie模塊成功從FireFox加載了cookies。

下面是使用requests的例子，這次我們從Chrome里面加載cookies，當(dāng)然你需要事先用Chrome登錄Bitbucket：

>>> import requests
>>> cj = browsercookie.chrome()
>>> r = requests.get(url, cookies=cj)
>>> get_title(r.content)
"richardpenman / home — Bitbucket"

如果你不知道或不關(guān)心那個瀏覽器有你需要的cookies，你可以這樣操作：

>>> cj = browsercookie.load()
>>> r = requests.get(url, cookies=cj)
>>> get_title(r.content)
"richardpenman / home — Bitbucket"

支持

目前，該模塊支持以下平臺：

Chrome: Linux, OSX, Windows
Firefox: Linux, OSX, Windows

目前該模塊測試過的瀏覽器版本還不是很多，你使用過程中可能會遇到問題，可以向作者提交問題：

https://bitbucket.org/richard...

文章來源于：猿人學(xué)網(wǎng)站的python教程。

版權(quán)申明:若沒有特殊說明，文章皆是猿人學(xué)原創(chuàng)，沒有猿人學(xué)授權(quán)，請勿以任何形式轉(zhuǎn)載。

云服務(wù)器 GPU云服務(wù)器 python爬蟲cookie cookie的使用 python爬蟲使用代理ip 用戶瀏覽器cookie網(wǎng)站js

文章版權(quán)歸作者所有，未經(jīng)允許請勿轉(zhuǎn)載,若此文章存在違規(guī)行為，您可以聯(lián)系管理員刪除。

轉(zhuǎn)載請注明本文地址：http://systransis.cn/yun/43725.html

發(fā)表評論

登陸后可評論

0條評論

xuexiangjys

男|高級講師

我要關(guān)注我要私信

TA的文章

#yyds干貨盤點(diǎn)# 3. 無轉(zhuǎn)折不編程，滾雪球?qū)W Python

閱讀 1096·2021-11-22 14:56
前端基本功-響應(yīng)式布局(flex)

閱讀 1537·2019-08-30 15:55
業(yè)務(wù)開發(fā)情境之：實(shí)現(xiàn)一個@功能

閱讀 3379·2019-08-30 15:45
transform，transition,animation

閱讀 1668·2019-08-30 13:03
一款自動wxss轉(zhuǎn)換的cli

閱讀 2881·2019-08-29 18:47
編寫高質(zhì)量的CSS

閱讀 3346·2019-08-29 11:09
重新復(fù)習(xí)js

閱讀 2652·2019-08-26 18:36
翻轉(zhuǎn)字符串算法（JavaScript）

閱讀 2629·2019-08-26 13:55

成人国产在线小视频_日韩寡妇人妻调教在线播放_色成人www永久在线观看_2018国产精品久久_亚洲欧美高清在线30p_亚洲少妇综合一区_黄色在线播放国产_亚洲另类技巧小说校园_国产主播xx日韩_a级毛片在线免费

資訊專欄INFORMATION COLUMN

上云采購季！| 2核2G4M爆款云服務(wù)器低至59元/年，更有多臺、長期優(yōu)惠，快來選購！

Python爬蟲使用瀏覽器的cookies：browsercookie

相關(guān)文章

***Python3網(wǎng)絡(luò)爬蟲實(shí)戰(zhàn)---18、Session和Cookies***

Python入門網(wǎng)絡(luò)爬蟲之精華版

Python爬蟲理論之cookie驗證，不回顧下歷史，套路都不知道怎么來的！

Python 從零開始爬蟲(九)——模擬登錄，cookie的使用

Python定向爬蟲，模擬新浪微博登錄！

發(fā)表評論

0條評論

xuexiangjys

男|高級講師

TA的文章

#yyds干貨盤點(diǎn)# 3. 無轉(zhuǎn)折不編程，滾雪球?qū)W Python

前端基本功-響應(yīng)式布局(flex)

業(yè)務(wù)開發(fā)情境之：實(shí)現(xiàn)一個@功能

transform，transition,animation

一款自動wxss轉(zhuǎn)換的cli

編寫高質(zhì)量的CSS

重新復(fù)習(xí)js

翻轉(zhuǎn)字符串算法（JavaScript）

最新活動

資訊專欄INFORMATION COLUMN

上云采購季！| 2核2G4M爆款云服務(wù)器低至59元/年，更有多臺、長期優(yōu)惠，快來選購！

Python爬蟲使用瀏覽器的cookies：browsercookie

相關(guān)文章

發(fā)表評論

0條評論

男|高級講師

TA的文章

最新活動

上云采購季！| 2核2G4M爆款云服務(wù)器低至59元/年，更有多臺、長期優(yōu)惠，快來選購！