爬蟲(chóng)養(yǎng)成記 - 網(wǎng)絡(luò)下載器urllib2初認(rèn)識(shí)

AlphaWallet 發(fā)布于2019-07-25 11:25 / 3404人閱讀

摘要：申明本系列文章借鑒了慕課網(wǎng)的課程，。慕課網(wǎng)是一個(gè)非常贊的學(xué)習(xí)網(wǎng)站。是下的一個(gè)模塊，在中，被拆分成和實(shí)現(xiàn)一個(gè)最簡(jiǎn)單的下載器使用函數(shù)可以給服務(wù)器發(fā)送一個(gè)請(qǐng)求。該函數(shù)返回一個(gè)該返回的對(duì)象有三個(gè)額外的函數(shù)取得服務(wù)器返回的。默認(rèn)沒(méi)有的，請(qǐng)求方式為。

申明：本系列文章借鑒了慕課網(wǎng)的課程，http://www.imooc.com/learn/563。慕課網(wǎng)是一個(gè)非常贊的學(xué)習(xí)網(wǎng)站。

urllib2是python2.x下的一個(gè)模塊，在Python3.x中，urllib2被拆分成urllib.request和urllib.error.

實(shí)現(xiàn)一個(gè)最簡(jiǎn)單的下載器

使用urllib2.urlopen(url)函數(shù)可以給服務(wù)器發(fā)送一個(gè)請(qǐng)求。
該函數(shù)返回一個(gè)file-like object. 該返回的對(duì)象有三個(gè)額外的函數(shù)：

geturl() 取得服務(wù)器返回的url。一般用來(lái)判斷是否需要重定向。

info() 獲取頁(yè)面的meta信息

getcode() 獲取響應(yīng)的http狀態(tài)碼

例如我們寫了一小段程序

import urllib2

response = urllib2.urlopen("http://www.baidu.com")
print response.getcode()
print response.info()

用來(lái)下載百度首頁(yè)的內(nèi)容。

構(gòu)造一個(gè)request對(duì)象

urllib2.urlopen()函數(shù)不僅僅能接收一個(gè)url字符串，還能接收一個(gè)request對(duì)象。
我們可以在Request對(duì)象中添加數(shù)據(jù)和header。

設(shè)置請(qǐng)求頭

import urllib2

request = urllib2.Request("https://www.zhihu.com/question/28593608/answer/141936198")
request.add_header("User-Agent", "Mozilla/5.0")

response = urllib2.urlopen(request)
print response.read()

Post請(qǐng)求方法和在請(qǐng)求中添加數(shù)據(jù)

上面的代碼是一個(gè)爬取知乎某一個(gè)回答的代碼。我們可以看到，我們并沒(méi)有在request中添加data。
urllib2 默認(rèn)沒(méi)有data的，請(qǐng)求方式為GET。
urllib2 如果添加了data，那么請(qǐng)求方式為POST。
例如：

import urllib

values = {
    "name": "charlie",
    "age": 20,
    "gender": "male"
}

data = urllib.urlencode(values)

request.add_data(data)

我們使用POST方式提交數(shù)據(jù)的時(shí)候，我們需要?jiǎng)?chuàng)建一個(gè)字典型數(shù)據(jù)，并且用urllib.urlencode()函數(shù)將器編碼成字符串，并用Request.add_data()函數(shù)添加到request中。

cookie、https、Proxy、HttpRedirect

實(shí)際情況中，往往比上面的更加復(fù)雜，例如很多網(wǎng)站會(huì)設(shè)置cookie、可以會(huì)使用https加密傳輸，可能會(huì)設(shè)置代理，會(huì)有重定向等。
如何要處理上面這些特殊的情境，那么我們則需要添加特殊的處理器。

HTTPCookieProcessor

ProxyHandler

HTTPHandler

HTTPRedirectHandler

構(gòu)造好上述對(duì)象后，需要運(yùn)用urllib2.build_opener()創(chuàng)建一個(gè)opener.
然后將opener安裝到urllib2中: urllib2.install_opener(opener)。
例如：

import urllib2
import cookielib

cookie_jar = cookielib.CookieJar()
cookie_processor = urllib2.HTTPCookieProcessor(cookiejar=cookie_jar)
opener = urllib2.build_opener(cookie_processor)
urllib2.install_opener(opener)

response = urllib2.urlopen("http://www.baidu.com")
for item in cookie_jar:
    print item.name, item.value

如上述代碼所示，我們先新建了一個(gè)CookieJar。CookieJar是一個(gè)內(nèi)存中保存cookie的對(duì)象。
然后我們構(gòu)造一個(gè)cookie的處理器——HTTPCookieProcessor。
然后我們?cè)诟鶕?jù)cookie處理器構(gòu)造一個(gè)opener。

opener的概念

opener我們可以理解成打開(kāi)網(wǎng)頁(yè)獲取response的東西。默認(rèn)的opener只能接收url、data或resquest等的一個(gè)opener。
如果我們想要獲得更加多的功能，那么我們就需要構(gòu)造一個(gè)有HttpCookieProcessor的opener。

更多關(guān)于urllib2的opener概念，可以閱讀一篇非常棒的文章：http://cuiqingcai.com/968.html

云服務(wù)器 GPU云服務(wù)器網(wǎng)絡(luò)爬蟲(chóng)下載網(wǎng)絡(luò)爬蟲(chóng)工具下載網(wǎng)絡(luò)爬蟲(chóng)軟件下載網(wǎng)絡(luò)視頻下載器

文章版權(quán)歸作者所有，未經(jīng)允許請(qǐng)勿轉(zhuǎn)載,若此文章存在違規(guī)行為，您可以聯(lián)系管理員刪除。

轉(zhuǎn)載請(qǐng)注明本文地址：http://systransis.cn/yun/38384.html

發(fā)表評(píng)論

登陸后可評(píng)論

0條評(píng)論

AlphaWallet

男|高級(jí)講師

我要關(guān)注我要私信

TA的文章

iWebFusion：洛杉磯4G內(nèi)存套餐$9.38/月起,加$5可升級(jí)10Gbps帶寬

閱讀 1640·2021-10-25 09:46
了解RoboMaster視覺(jué)組（三）視覺(jué)組使用的軟件

閱讀 3235·2021-10-08 10:04
基于GSM遠(yuǎn)程短信防盜報(bào)警系統(tǒng)

閱讀 2383·2021-09-06 15:00
Digicert：關(guān)于SSL證書(shū)域名驗(yàn)證（DCV）策略變更通知

閱讀 2784·2021-08-19 10:57
獻(xiàn)禮“618”，1700+集前端視頻教程免費(fèi)看

閱讀 2088·2019-08-30 11:03
移動(dòng)端實(shí)現(xiàn)表頭固定，tbody滾動(dòng)，三種方法

閱讀 989·2019-08-30 11:00
UCloud云主機(jī)KMS激活方式說(shuō)明

閱讀 2390·2019-08-26 17:10
一篇文章帶你過(guò)一遍 TypeScript

閱讀 3559·2019-08-26 13:36

成人国产在线小视频_日韩寡妇人妻调教在线播放_色成人www永久在线观看_2018国产精品久久_亚洲欧美高清在线30p_亚洲少妇综合一区_黄色在线播放国产_亚洲另类技巧小说校园_国产主播xx日韩_a级毛片在线免费

資訊專欄INFORMATION COLUMN

上云采購(gòu)季！| 2核2G4M爆款云服務(wù)器低至59元/年，更有多臺(tái)、長(zhǎng)期優(yōu)惠，快來(lái)選購(gòu)！

爬蟲(chóng)養(yǎng)成記 - 網(wǎng)絡(luò)下載器urllib2初認(rèn)識(shí)

相關(guān)文章

***爬蟲(chóng)養(yǎng)成記 - 什么是網(wǎng)絡(luò)爬蟲(chóng)***

爬蟲(chóng)養(yǎng)成記 - 網(wǎng)絡(luò)下載器urllib2偽裝術(shù)

爬蟲(chóng)養(yǎng)成記 - urllib2的調(diào)試和錯(cuò)誤處理

爬蟲(chóng)養(yǎng)成記 - urllib2的HTTPCookieProcessor

爬蟲(chóng) - 收藏集 - 掘金

發(fā)表評(píng)論

0條評(píng)論

AlphaWallet

男|高級(jí)講師

TA的文章

iWebFusion：洛杉磯4G內(nèi)存套餐$9.38/月起,加$5可升級(jí)10Gbps帶寬

了解RoboMaster視覺(jué)組（三）視覺(jué)組使用的軟件

基于GSM遠(yuǎn)程短信防盜報(bào)警系統(tǒng)

Digicert：關(guān)于SSL證書(shū)域名驗(yàn)證（DCV）策略變更通知

獻(xiàn)禮“618”，1700+集前端視頻教程免費(fèi)看

移動(dòng)端實(shí)現(xiàn)表頭固定，tbody滾動(dòng)，三種方法

UCloud云主機(jī)KMS激活方式說(shuō)明

一篇文章帶你過(guò)一遍 TypeScript

最新活動(dòng)

資訊專欄INFORMATION COLUMN

上云采購(gòu)季！| 2核2G4M爆款云服務(wù)器低至59元/年，更有多臺(tái)、長(zhǎng)期優(yōu)惠，快來(lái)選購(gòu)！

爬蟲(chóng)養(yǎng)成記 - 網(wǎng)絡(luò)下載器urllib2初認(rèn)識(shí)

相關(guān)文章

發(fā)表評(píng)論

0條評(píng)論

男|高級(jí)講師

TA的文章

最新活動(dòng)

上云采購(gòu)季！| 2核2G4M爆款云服務(wù)器低至59元/年，更有多臺(tái)、長(zhǎng)期優(yōu)惠，快來(lái)選購(gòu)！