這個(gè)男人讓你的爬蟲開發(fā)效率提升8倍

Jackwoo 發(fā)布于2019-07-30 17:59 / 2889人閱讀

摘要：提升倍雖是我胡謅的數(shù)據(jù)，開發(fā)效率的提升卻是杠杠滴。而卻不同，它提供了官方中文文檔，其中包括了很清晰的快速上手和詳盡的高級用法和接口指南。其他更多詳細(xì)內(nèi)容不多說了，中文官網(wǎng)地址，順著看一遍，寫一遍，你就掌握這個(gè)爬蟲神器了。

他叫 Kenneth Reitz。現(xiàn)就職于知名云服務(wù)提供商 DigitalOcean，曾是云計(jì)算平臺 Heroku 的 Python 架構(gòu)師，目前 Github 上 Python 排行榜第一的用戶。（star 數(shù)超過了包括 google、tensorflow、django 等賬號）

但他被更多路人所熟知的，恐怕還是他從一名技術(shù)肥宅逆襲成為文藝高富帥的勵(lì)志故事：

看看他的個(gè)人主頁 www.kennethreitz.org 上的標(biāo)簽：

除了程序員，還有攝影師、音樂家、演講者……不怪在社交媒體上被稱為“程序員屆的網(wǎng)紅”。

然而，作為一個(gè)嚴(yán)肅的技術(shù)號，今天我們不是要八卦他的開掛人生，而是他的代表作品： Requests

（如果你還是想看八卦，給你個(gè)傳送門： 誰說程序員不是潛力股？讓這位世界前五名的天才程序員來顛覆你三觀！ ）

Requests 自我定義為 HTTP for Humans ： 讓 HTTP 服務(wù)人類 ，或者說最人性化的 HTTP。言外之意，之前的那些 HTTP 庫太過繁瑣，都不是給人用的。（urllib 表示：怪我咯?。?/p>

盡管聽上去有些自大，但實(shí)際上它的的確確配得上這個(gè)評價(jià)，用過的都說好。我在文首搬出它的網(wǎng)紅作者，其實(shí)也僅僅是想吸引下你的眼球，然后告訴你，這真的是一個(gè)非常值得使用的庫?！疤嵘?倍”雖是我胡謅的數(shù)據(jù)，開發(fā)效率的提升卻是杠杠滴。

我們先來看看它官網(wǎng)上的說法：

其他同樣非常值得推薦的東西，如 PyCharm、Anaconda 等，我在推薦完之后往往得寫上一些教程，并在后續(xù)不斷解答使用者的問題。

而 Requests 卻不同，它提供了官方中文文檔，其中包括了很清晰的“快速上手”和詳盡的高級用法和接口指南。以至于我覺得再把文檔里面內(nèi)容搬運(yùn)過來都是一種浪費(fèi)。對于 Requests，要做的僅僅是兩件事：

告訴你有這樣一個(gè)工具，用來開發(fā)爬蟲很輕松

告訴你它的官方文檔很好，你去讀就可以了

到此為止，本篇的目的已經(jīng)達(dá)到。不過為了更有說服力，以及照顧到一些暫時(shí)還不需要但以后可能會(huì)去看的同學(xué)，我還是再啰嗦幾句，演示下 Requests 的威力。
安裝

pip install requests 即可

請求網(wǎng)頁


 import requests
r = requests.get("http://httpbin.org/get")
print(r.status_code)
print(r.encoding)
print(r.text)
print(r.json())

只需一行代碼就可以完成 HTTP 請求。然后輕松獲取狀態(tài)碼、編碼、內(nèi)容，甚至按 JSON 格式轉(zhuǎn)換數(shù)據(jù)。雖然這種簡單請求用別的庫也不復(fù)雜，但其實(shí)在內(nèi)部，Requests 已幫你完成了 添加 headers、自動(dòng)解壓縮、自動(dòng)解碼 等操作。寫過課程中“查天氣”的同學(xué)，很可能踩過 gzip 壓縮的坑，用 Requests 就不存在了。如果你發(fā)現(xiàn)獲取的內(nèi)容編碼不對，也只需要直接給 encoding 賦值正確的編碼后再訪問 text，就自動(dòng)完成了編碼轉(zhuǎn)換，非常方便。

想要 下載一張圖片 ：


r = requests.get("https://www.baidu.com/img/bd_logo1.png")
with open("image.png", "wb") as f:
    f.write(r.content)

把返回結(jié)果的 content 保存在文件里就行了。

提交一個(gè) POST 請求 ，同時(shí)增加 請求頭、cookies、代理 等信息（此處使用的代理地址不是真實(shí)的，測試代碼時(shí)需去掉）：


import requests
url = "http://httpbin.org/post"
cookies = dict(some_cookie="working")
headers = {"user-agent": "chrome"}
proxies = {
    "http":"http://10.10.1.10:3128",
    "https":"http://10.10.1.10:1080",
}
data = {"key1": "value1", "key2": "value2"}
r = requests.get(
    url,
    data=data,
    cookies=cookies,
    proxies=proxies,
    headers=headers
)
print(r.text)

上述幾個(gè)配置，如果使用自帶的 urllib 庫，代碼要增加不少。

有時(shí)我們做爬蟲時(shí)，需要保持 cookie 一致，比如登錄后才可訪問的頁面。用 Session 會(huì)話對象 就可以實(shí)現(xiàn)：


s = requests.Session()
s.get("http://httpbin.org/cookies/set/sessioncookie/123456789")
r = s.get("http://httpbin.org/cookies")
print(r.text)

另外提兩個(gè)常見小問題：
一個(gè)是關(guān)于 SSL ，也就是 https 證書的問題。如果碰到 HTTPS 證書無效導(dǎo)致無法訪問的錯(cuò)誤，可以嘗試加參數(shù) verify=False 忽略：


r = requests.get("https://www.12306.cn/", verify=False)
print(r.text)

另一個(gè)是對于設(shè)置了 自動(dòng)跳轉(zhuǎn) 的頁面，默認(rèn)會(huì)跟隨跳轉(zhuǎn)（但僅限于控制域名跳轉(zhuǎn)，無法跟隨 js 跳轉(zhuǎn)），也可以加參數(shù) allow_redirects=False 禁止：


r = requests.get("http://github.com/", allow_redirects=False)
print(r.status_code)
print(r.text)

上面兩個(gè)例子，把參數(shù)去掉試試看效果。

其他更多詳細(xì)內(nèi)容不多說了，中文官網(wǎng)地址 cn.python-requests.org，順著看一遍，寫一遍，你就掌握這個(gè)爬蟲神器了。

對了，作者今年又發(fā)布了個(gè)新的庫 Requests-HTML: HTML Parsing for Humans，用來對抓取到的 HTML 文本進(jìn)行處理。這是要把 bs4 也一并干掉的節(jié)奏啊。現(xiàn)在更新到 0.9 版本，密切關(guān)注中。

我們編程教室的不少演示項(xiàng)目如 電影票價(jià)查詢、就業(yè)崗位分析、IP 代理池 里也都使用了 Requests 庫，想了解的請?jiān)诠娞枺–rossin的編程教室）里回復(fù) 項(xiàng)目

════
其他文章及回答：

歡迎搜索及關(guān)注： Crossin的編程教室

GPU云服務(wù)器云服務(wù)器這個(gè)男人效率提升提升前端效率開發(fā)效率

文章版權(quán)歸作者所有，未經(jīng)允許請勿轉(zhuǎn)載,若此文章存在違規(guī)行為，您可以聯(lián)系管理員刪除。

轉(zhuǎn)載請注明本文地址：http://systransis.cn/yun/42540.html

發(fā)表評論

登陸后可評論

0條評論

Jackwoo

男|高級講師

我要關(guān)注我要私信

TA的文章

關(guān)于C++基礎(chǔ)的一些“碎碎念”

閱讀 1865·2021-09-29 09:35
云服務(wù)器和云虛擬主機(jī)有什么區(qū)別-云主機(jī)、云服務(wù)器、虛擬主機(jī)有什么區(qū)別呢？

閱讀 2726·2021-09-22 15:25
PIGYun：“喜迎金秋" 香港、韓國BGP混合CN2大帶寬僅14元起

閱讀 1980·2021-08-23 09:43
前端進(jìn)階（12） - css 的弱化與 js 的強(qiáng)化

閱讀 2061·2019-08-30 15:54
前端每日實(shí)戰(zhàn)：53# 視頻演示如何用純 CSS 創(chuàng)作一個(gè)文本淡入淡出的 loader 動(dòng)畫

閱讀 3360·2019-08-30 15:53
哪些你知道或不知道的css，在這里或許都齊全

閱讀 2396·2019-08-30 13:50
移動(dòng)端鍵盤和光標(biāo)的兼容那點(diǎn)事

閱讀 2408·2019-08-30 11:24
前端框架這么多，該如何抉擇？

閱讀 2281·2019-08-29 15:37

成人国产在线小视频_日韩寡妇人妻调教在线播放_色成人www永久在线观看_2018国产精品久久_亚洲欧美高清在线30p_亚洲少妇综合一区_黄色在线播放国产_亚洲另类技巧小说校园_国产主播xx日韩_a级毛片在线免费

資訊專欄INFORMATION COLUMN

上云采購季！| 2核2G4M爆款云服務(wù)器低至59元/年，更有多臺、長期優(yōu)惠，快來選購！

這個(gè)男人讓你的爬蟲開發(fā)效率提升8倍

相關(guān)文章

我們一直談?wù)摗皩懘a”，但你會(huì)“讀代碼”嗎？

文章內(nèi)容提取庫 goose 簡介

BeautifulSoup：網(wǎng)頁解析利器上手簡介

**【長期更新】盤一盤那些 uTools 高質(zhì)量插件，讓你的工作效率瞬間提升N倍！**

學(xué)會(huì)它，能讓你工作學(xué)習(xí)效率提升10倍！

發(fā)表評論

0條評論

Jackwoo

男|高級講師

TA的文章

關(guān)于C++基礎(chǔ)的一些“碎碎念”

云服務(wù)器和云虛擬主機(jī)有什么區(qū)別-云主機(jī)、云服務(wù)器、虛擬主機(jī)有什么區(qū)別呢？

PIGYun：“喜迎金秋" 香港、韓國BGP混合CN2大帶寬僅14元起

前端進(jìn)階（12） - css 的弱化與 js 的強(qiáng)化

前端每日實(shí)戰(zhàn)：53# 視頻演示如何用純 CSS 創(chuàng)作一個(gè)文本淡入淡出的 loader 動(dòng)畫

哪些你知道或不知道的css，在這里或許都齊全

移動(dòng)端鍵盤和光標(biāo)的兼容那點(diǎn)事

前端框架這么多，該如何抉擇？

最新活動(dòng)

資訊專欄INFORMATION COLUMN

上云采購季！| 2核2G4M爆款云服務(wù)器低至59元/年，更有多臺、長期優(yōu)惠，快來選購！

這個(gè)男人讓你的爬蟲開發(fā)效率提升8倍

相關(guān)文章

發(fā)表評論

0條評論

男|高級講師

TA的文章

最新活動(dòng)

上云采購季！| 2核2G4M爆款云服務(wù)器低至59元/年，更有多臺、長期優(yōu)惠，快來選購！