摘要:學(xué)習(xí)網(wǎng)絡(luò)爬蟲(chóng)主要分個(gè)大的版塊抓取,分析,存儲(chǔ)另外,比較常用的爬蟲(chóng)框架,這里最后也詳細(xì)介紹一下。網(wǎng)絡(luò)爬蟲(chóng)要做的,簡(jiǎn)單來(lái)說(shuō),就是實(shí)現(xiàn)瀏覽器的功能。
Python學(xué)習(xí)網(wǎng)絡(luò)爬蟲(chóng)主要分3個(gè)大的版塊:抓取,分析,存儲(chǔ) 另外,比較常用的爬蟲(chóng)框架Scrapy,這里最后也詳細(xì)介紹一下。 首先列舉一下本人總結(jié)的相關(guān)文章,這些覆蓋了入門網(wǎng)絡(luò)爬蟲(chóng)需要的基本概念和技巧:寧哥的小站-網(wǎng)絡(luò)爬蟲(chóng),當(dāng)我們?cè)跒g覽器中輸入一個(gè)url后回車,后臺(tái)會(huì)發(fā)生什么?比如說(shuō)你輸入http://www.lining0806.com/,你就會(huì)看到寧哥的小站首頁(yè)。 簡(jiǎn)單來(lái)說(shuō)這段過(guò)程發(fā)生了以下四個(gè)步驟: 查找域名對(duì)應(yīng)的IP地址。 向IP對(duì)應(yīng)的服務(wù)器發(fā)送請(qǐng)求。 服務(wù)器響應(yīng)請(qǐng)求,發(fā)回網(wǎng)頁(yè)內(nèi)容。 瀏覽器解析網(wǎng)頁(yè)內(nèi)容。 網(wǎng)絡(luò)爬蟲(chóng)要做的,簡(jiǎn)單來(lái)說(shuō),就是實(shí)現(xiàn)瀏覽器的功能。通過(guò)指定url,直接返回給用戶所需要的數(shù)據(jù),而不需要一步步人工去操縱瀏覽器獲取。 **抓取** 這一步,你要明確要得到的內(nèi)容是什么?是HTML源碼,還是Json格式的字符串等。 1. 最基本的抓取 抓取大多數(shù)情況屬于get請(qǐng)求,即直接從對(duì)方服務(wù)器上獲取數(shù)據(jù)。 首先,Python中自帶urllib及urllib2這兩個(gè)模塊,基本上能滿足一般的頁(yè)面抓取。另外,requests也是非常有用的包,與此類似的,還有httplib2等等。 Requests: import requests response = requests.get(url) content = requests.get(url).content print "response headers:", response.headers print "content:", content Urllib2: import urllib2 response = urllib2.urlopen(url) content = urllib2.urlopen(url).read() print "response headers:", response.headers print "content:", content Httplib2: import httplib2 http = httplib2.Http() response_headers, content = http.request(url, "GET") print "response headers:", response_headers print "content:", content 此外,對(duì)于帶有查詢字段的url,get請(qǐng)求一般會(huì)將來(lái)請(qǐng)求的數(shù)據(jù)附在url之后,以?分割url和傳輸數(shù)據(jù),多個(gè)參數(shù)用&連接。 data = {"data1":"XXXXX", "data2":"XXXXX"} Requests:data為dict,json import requests response = requests.get(url=url, params=data) Urllib2:data為string import urllib, urllib2 data = urllib.urlencode(data) full_url = url+"?"+data response = urllib2.urlopen(full_url) 相關(guān)參考:網(wǎng)易新聞排行榜抓取回顧 參考項(xiàng)目:網(wǎng)絡(luò)爬蟲(chóng)之最基本的爬蟲(chóng):爬取網(wǎng)易新聞排行榜 2. 對(duì)于登陸情況的處理 2.1 使用表單登陸 這種情況屬于post請(qǐng)求,即先向服務(wù)器發(fā)送表單數(shù)據(jù),服務(wù)器再將返回的cookie存入本地。 data = {"data1":"XXXXX", "data2":"XXXXX"} Requests:data為dict,json import requests response = requests.post(url=url, data=data) Urllib2:data為string import urllib, urllib2 data = urllib.urlencode(data) req = urllib2.Request(url=url, data=data) response = urllib2.urlopen(req) 2.2 使用cookie登陸 使用cookie登陸,服務(wù)器會(huì)認(rèn)為你是一個(gè)已登陸的用戶,所以就會(huì)返回給你一個(gè)已登陸的內(nèi)容。因此,需要驗(yàn)證碼的情況可以使用帶驗(yàn)證碼登陸的cookie解決。 import requests requests_session = requests.session() response = requests_session.post(url=url_login, data=data) 若存在驗(yàn)證碼,此時(shí)采用 response = requests_session.post(url=url_login, data=data)是不行的,做法應(yīng)該如下: response_captcha = requests_session.get(url=url_login,cookies=cookies) response1 = requests.get(url_login) # 未登陸 response2 = requests_session.get(url_login) # 已登陸,因?yàn)橹澳玫搅薘esponse Cookie! response3 = requests_session.get(url_results) # 已登陸,因?yàn)橹澳玫搅薘esponse Cookie! 相關(guān)參考:網(wǎng)絡(luò)爬蟲(chóng)-驗(yàn)證碼登陸 參考項(xiàng)目:網(wǎng)絡(luò)爬蟲(chóng)之用戶名密碼及驗(yàn)證碼登陸:爬取知乎網(wǎng)站 3. 對(duì)于反爬蟲(chóng)機(jī)制的處理 3.1 使用代理 適用情況:限制IP地址情況,也可解決由于“頻繁點(diǎn)擊”而需要輸入驗(yàn)證碼登陸的情況。 這種情況最好的辦法就是維護(hù)一個(gè)代理IP池,網(wǎng)上有很多免費(fèi)的代理IP,良莠不齊,可以通過(guò)篩選找到能用的。對(duì)于“頻繁點(diǎn)擊”的情況,我們還可以通過(guò)限制爬蟲(chóng)訪問(wèn)網(wǎng)站的頻率來(lái)避免被網(wǎng)站禁掉。 proxies = {"http":"http://XX.XX.XX.XX:XXXX"} Requests: import requests response = requests.get(url=url, proxies=proxies) Urllib2: import urllib2 proxy_support = urllib2.ProxyHandler(proxies) opener = urllib2.build_opener(proxy_support,urllib2.HTTPHandler) urllib2.install_opener(opener) # 安裝opener,此后調(diào)用urlopen()時(shí)都會(huì)使用安裝過(guò)的opener對(duì)象 response = urllib2.urlopen(url) 3.2 時(shí)間設(shè)置 適用情況:限制頻率情況。 Requests,Urllib2都可以使用time庫(kù)的sleep()函數(shù): import time time.sleep(1) 3.3 偽裝成瀏覽器,或者反“反盜鏈” 有些網(wǎng)站會(huì)檢查你是不是真的瀏覽器訪問(wèn),還是機(jī)器自動(dòng)訪問(wèn)的。這種情況,加上User-Agent,表明你是瀏覽器訪問(wèn)即可。有時(shí)還會(huì)檢查是否帶Referer信息還會(huì)檢查你的Referer是否合法,一般再加上Referer。 headers = {"User-Agent":"XXXXX"} # 偽裝成瀏覽器訪問(wèn),適用于拒絕爬蟲(chóng)的網(wǎng)站 headers = {"Referer":"XXXXX"} headers = {"User-Agent":"XXXXX", "Referer":"XXXXX"} Requests: response = requests.get(url=url, headers=headers) Urllib2: import urllib, urllib2 req = urllib2.Request(url=url, headers=headers) response = urllib2.urlopen(req) 4. 對(duì)于斷線重連不多說(shuō)。 def multi_session(session, *arg): retryTimes = 20 while retryTimes>0: try: return session.post(*arg) except: print ".", retryTimes -= 1 或者 def multi_open(opener, *arg): retryTimes = 20 while retryTimes>0: try: return opener.open(*arg) except: print ".", retryTimes -= 1 這樣我們就可以使用multi_session或multi_open對(duì)爬蟲(chóng)抓取的session或opener進(jìn)行保持。 5. 多進(jìn)程抓取 這里針對(duì)華爾街見(jiàn)聞進(jìn)行并行抓取的實(shí)驗(yàn)對(duì)比:Python多進(jìn)程抓取 與 Java單線程和多線程抓取 相關(guān)參考:關(guān)于Python和Java的多進(jìn)程多線程計(jì)算方法對(duì)比 6. 對(duì)于Ajax請(qǐng)求的處理 對(duì)于“加載更多”情況,使用Ajax來(lái)傳輸很多數(shù)據(jù)。 它的工作原理是:從網(wǎng)頁(yè)的url加載網(wǎng)頁(yè)的源代碼之后,會(huì)在瀏覽器里執(zhí)行JavaScript程序。這些程序會(huì)加載更多的內(nèi)容,“填充”到網(wǎng)頁(yè)里。這就是為什么如果你直接去爬網(wǎng)頁(yè)本身的url,你會(huì)找不到頁(yè)面的實(shí)際內(nèi)容。 這里,若使用Google Chrome分析”請(qǐng)求“對(duì)應(yīng)的鏈接(方法:右鍵→審查元素→Network→清空,點(diǎn)擊”加載更多“,出現(xiàn)對(duì)應(yīng)的GET鏈接尋找Type為text/html的,點(diǎn)擊,查看get參數(shù)或者復(fù)制Request URL),循環(huán)過(guò)程。 如果“請(qǐng)求”之前有頁(yè)面,依據(jù)上一步的網(wǎng)址進(jìn)行分析推導(dǎo)第1頁(yè)。以此類推,抓取抓Ajax地址的數(shù)據(jù)。 對(duì)返回的json格式數(shù)據(jù)(str)進(jìn)行正則匹配。json格式數(shù)據(jù)中,需從’uxxxx’形式的unicode_escape編碼轉(zhuǎn)換成u’uxxxx’的unicode編碼。 7. 自動(dòng)化測(cè)試工具Selenium Selenium是一款自動(dòng)化測(cè)試工具。它能實(shí)現(xiàn)操縱瀏覽器,包括字符填充、鼠標(biāo)點(diǎn)擊、獲取元素、頁(yè)面切換等一系列操作??傊?,凡是瀏覽器能做的事,Selenium都能夠做到。這里列出在給定城市列表后,使用selenium來(lái)動(dòng)態(tài)抓取去哪兒網(wǎng)的票價(jià)信息的代碼。 參考項(xiàng)目:網(wǎng)絡(luò)爬蟲(chóng)之Selenium使用代理登陸:爬取去哪兒網(wǎng)站 8. 驗(yàn)證碼識(shí)別 對(duì)于網(wǎng)站有驗(yàn)證碼的情況,我們有三種辦法: 使用代理,更新IP。 使用cookie登陸。 驗(yàn)證碼識(shí)別。 使用代理和使用cookie登陸之前已經(jīng)講過(guò),下面講一下驗(yàn)證碼識(shí)別。 可以利用開(kāi)源的Tesseract-OCR系統(tǒng)進(jìn)行驗(yàn)證碼圖片的下載及識(shí)別,將識(shí)別的字符傳到爬蟲(chóng)系統(tǒng)進(jìn)行模擬登陸。當(dāng)然也可以將驗(yàn)證碼圖片上傳到打碼平臺(tái)上進(jìn)行識(shí)別。如果不成功,可以再次更新驗(yàn)證碼識(shí)別,直到成功為止。 參考項(xiàng)目:驗(yàn)證碼識(shí)別項(xiàng)目第一版:Captcha1 爬取有兩個(gè)需要注意的問(wèn)題: 如何監(jiān)控一系列網(wǎng)站的更新情況,也就是說(shuō),如何進(jìn)行增量式爬?。?對(duì)于海量數(shù)據(jù),如何實(shí)現(xiàn)分布式爬??? **分析** 抓取之后就是對(duì)抓取的內(nèi)容進(jìn)行分析,你需要什么內(nèi)容,就從中提煉出相關(guān)的內(nèi)容來(lái)。 常見(jiàn)的分析工具有正則表達(dá)式,BeautifulSoup,lxml等等。 **存儲(chǔ)** 分析出我們需要的內(nèi)容之后,接下來(lái)就是存儲(chǔ)了。 我們可以選擇存入文本文件,也可以選擇存入MySQL或MongoDB數(shù)據(jù)庫(kù)等。 存儲(chǔ)有兩個(gè)需要注意的問(wèn)題: 如何進(jìn)行網(wǎng)頁(yè)去重? 內(nèi)容以什么形式存儲(chǔ)? **Scrapy** Scrapy是一個(gè)基于Twisted的開(kāi)源的Python爬蟲(chóng)框架,在工業(yè)中應(yīng)用非常廣泛。 相關(guān)內(nèi)容可以參考基于Scrapy網(wǎng)絡(luò)爬蟲(chóng)的搭建,同時(shí)給出這篇文章介紹的微信搜索爬取的項(xiàng)目代碼,給大家作為學(xué)習(xí)參考。 參考項(xiàng)目:使用Scrapy或Requests遞歸抓取微信搜索結(jié)果 [楚江數(shù)據(jù)][1]是一家專業(yè)的互聯(lián)網(wǎng)數(shù)據(jù)技術(shù)服務(wù)商,為客戶提供網(wǎng)站APP數(shù)據(jù)采集和爬蟲(chóng)軟件定制開(kāi)發(fā)服務(wù),服務(wù)范圍涵蓋社交網(wǎng)絡(luò)、電子商務(wù)、分類信息、學(xué)術(shù)研究等。 官方網(wǎng)站 http://www.chujiangdata.com 轉(zhuǎn)載請(qǐng)注明:寧哥的小站 ? Python入門網(wǎng)絡(luò)爬蟲(chóng)之精華版
文章版權(quán)歸作者所有,未經(jīng)允許請(qǐng)勿轉(zhuǎn)載,若此文章存在違規(guī)行為,您可以聯(lián)系管理員刪除。
轉(zhuǎn)載請(qǐng)注明本文地址:http://systransis.cn/yun/38476.html
摘要:楚江數(shù)據(jù)經(jīng)常浪跡各類有關(guān)數(shù)據(jù)類文章中網(wǎng)站中,做做搬運(yùn)工。在這里跟大家分享下數(shù)據(jù)分析師的知識(shí)結(jié)構(gòu),數(shù)據(jù)分析師的知識(shí)結(jié)構(gòu)應(yīng)當(dāng)包括數(shù)據(jù)能力業(yè)務(wù)思維方法三個(gè)維度。下面書單,選取的都是行業(yè)里面的經(jīng)典書籍,內(nèi)容較多,建議大家采取階段性學(xué)習(xí)。 楚江數(shù)據(jù)經(jīng)常浪跡各類有關(guān)數(shù)據(jù)類文章中網(wǎng)站中,做做搬運(yùn)工。在這里跟大家分享下數(shù)據(jù)分析師的知識(shí)結(jié)構(gòu),數(shù)據(jù)分析師的知識(shí)結(jié)構(gòu)應(yīng)當(dāng)包括數(shù)據(jù)能力、業(yè)務(wù)sense、思維方法...
摘要:以下這些項(xiàng)目,你拿來(lái)學(xué)習(xí)學(xué)習(xí)練練手。當(dāng)你每個(gè)步驟都能做到很優(yōu)秀的時(shí)候,你應(yīng)該考慮如何組合這四個(gè)步驟,使你的爬蟲(chóng)達(dá)到效率最高,也就是所謂的爬蟲(chóng)策略問(wèn)題,爬蟲(chóng)策略學(xué)習(xí)不是一朝一夕的事情,建議多看看一些比較優(yōu)秀的爬蟲(chóng)的設(shè)計(jì)方案,比如說(shuō)。 (一)如何學(xué)習(xí)Python 學(xué)習(xí)Python大致可以分為以下幾個(gè)階段: 1.剛上手的時(shí)候肯定是先過(guò)一遍Python最基本的知識(shí),比如說(shuō):變量、數(shù)據(jù)結(jié)構(gòu)、語(yǔ)法...
摘要:時(shí)間永遠(yuǎn)都過(guò)得那么快,一晃從年注冊(cè),到現(xiàn)在已經(jīng)過(guò)去了年那些被我藏在收藏夾吃灰的文章,已經(jīng)太多了,是時(shí)候把他們整理一下了。那是因?yàn)槭詹貖A太亂,橡皮擦給設(shè)置私密了,不收拾不好看呀。 ...
摘要:數(shù)據(jù)分析的發(fā)展方向一般有商業(yè)方向,行業(yè)分析業(yè)務(wù)方向,和機(jī)器學(xué)習(xí)數(shù)據(jù)挖掘方向。機(jī)器學(xué)習(xí)的書籍推薦統(tǒng)計(jì)學(xué)習(xí)方法,機(jī)器學(xué)習(xí),機(jī)器學(xué)習(xí)實(shí)戰(zhàn)三本書。 作者:xiaoyu 微信公眾號(hào):Python數(shù)據(jù)科學(xué) 知乎:python數(shù)據(jù)分析師 上一篇主要分享了博主親身轉(zhuǎn)行數(shù)據(jù)分析的經(jīng)歷: 【從零學(xué)起到成功轉(zhuǎn)行數(shù)據(jù)分析,我是怎么做的?】 本篇繼上一篇將分享轉(zhuǎn)行數(shù)據(jù)分析的一些經(jīng)驗(yàn)和學(xué)習(xí)方法,看完這篇你將會(huì)解...
閱讀 1278·2021-09-02 13:36
閱讀 2730·2019-08-30 15:44
閱讀 2986·2019-08-29 15:04
閱讀 3203·2019-08-26 13:40
閱讀 3652·2019-08-26 13:37
閱讀 1184·2019-08-26 12:22
閱讀 1030·2019-08-26 11:36
閱讀 1227·2019-08-26 10:41