摘要:結(jié)合項(xiàng)目代碼看比較好一些說明爬的是手機(jī)端網(wǎng)頁版的微博聽說這個(gè)爬起來簡單,我就爬了。最后的數(shù)據(jù)采用序列化后存儲(chǔ)在本地想用數(shù)據(jù)庫的自己改一下就好了,不會(huì)的可以去看看廖雪峰老師的教程。關(guān)于,可以看廖雪峰老師的講解。
為什么說是給新手的呢?
因?yàn)轫?xiàng)目很小,算上空行才200來行代碼,甚至有些“簡陋”。相比于動(dòng)不動(dòng)寫成幾個(gè)大模塊的教程,新手們能更快理解我在干什么,節(jié)省學(xué)習(xí)時(shí)間。當(dāng)然,該有的模擬登陸,數(shù)據(jù)解析也都不少。
Tip: 結(jié)合項(xiàng)目代碼看比較好
一些說明爬的是手機(jī)端網(wǎng)頁版的微博(聽說這個(gè)爬起來簡單,我就爬了)。
模擬登陸采用POST表單實(shí)現(xiàn),不是復(fù)制粘貼 cookie(復(fù)制粘貼沒什么技術(shù)含量,都不用動(dòng)腦子,想用的可以自己試一試)。
最后的數(shù)據(jù)采用pickle序列化后存儲(chǔ)在本地(想用數(shù)據(jù)庫的自己改一下就好了,不會(huì)的可以去看看廖雪峰老師的教程)。
微博內(nèi)容只取文本內(nèi)容。(因?yàn)槲覒校?/p>
為了不給別人添麻煩,亦本學(xué)習(xí)交流之意,對(duì)爬取的速度做了限制。
代碼結(jié)構(gòu)大體上分為兩部分,一個(gè) WBCrawler 類,一個(gè) show_random_data . 前者爬取并保存,后者隨機(jī)檢查一下。
關(guān)于登錄時(shí)所提交的表單涉及到的字段,我都在代碼里面寫了??戳怂膉avascript文件,有的字段在用帳號(hào)密碼登錄時(shí)就是空值。
HTTP 請(qǐng)求用 requests.seesion 發(fā)送,并且在項(xiàng)目退出時(shí)會(huì)保存 session,以便再次使用。這里當(dāng)然也是用的pickle序列化保存。
為了節(jié)約,長微博和短微博會(huì)在不同的地方進(jìn)行解析,所以大家會(huì)看到有的地方寫了兩種解析方式。
其中有一個(gè)函數(shù)使用了 yield 語句,是為了降低耦合。關(guān)于 yield ,可以看廖雪峰老師的講解。關(guān)于什么是耦合,我也不太清楚,我這里是為了不讓函數(shù)之間調(diào)用得太緊湊,適當(dāng)?shù)鬲?dú)立出來。
類的初始化函數(shù)中的 maximum 參數(shù)指爬取幾頁,默認(rèn)爬兩頁。
文章版權(quán)歸作者所有,未經(jīng)允許請(qǐng)勿轉(zhuǎn)載,若此文章存在違規(guī)行為,您可以聯(lián)系管理員刪除。
轉(zhuǎn)載請(qǐng)注明本文地址:http://systransis.cn/yun/40721.html
摘要:可能有的老手覺得我寫得很啰嗦,但其實(shí)很多新手可能都不知道這些細(xì)節(jié),所以我把我在分析新浪微博模擬登陸的過程全寫了出來。 這篇文章于去年4月發(fā)布在我的簡書,現(xiàn)在把它放到這里,主要是為了宣傳自己的分布式微博爬蟲。下面是主要內(nèi)容,希望能幫到有這個(gè)需求的朋友 最近由于需要一直在研究微博的爬蟲,第一步便是模擬登陸,從開始摸索到走通模擬登陸這條路其實(shí)還是挺艱難的,需要一定的經(jīng)驗(yàn),為了讓朋友們以后少...
摘要:理解迭代對(duì)象迭代器生成器后端掘金本文源自作者的一篇博文,原文是,俺寫的這篇文章是按照自己的理解做的參考翻譯。比較的是兩個(gè)對(duì)象的內(nèi)容是后端掘金黑魔法之協(xié)程異步后端掘金本文為作者原創(chuàng),轉(zhuǎn)載請(qǐng)先與作者聯(lián)系。 完全理解關(guān)鍵字with與上下文管理器 - 掘金如果你有閱讀源碼的習(xí)慣,可能會(huì)看到一些優(yōu)秀的代碼經(jīng)常出現(xiàn)帶有 with 關(guān)鍵字的語句,它通常用在什么場景呢?今天就來說說 with 和 上下...
摘要:前言利用實(shí)現(xiàn)抓取微博評(píng)論數(shù)據(jù),廢話不多說。讓我們愉快地開始吧開發(fā)工具版本相關(guān)模塊模塊模塊模塊模塊模塊以及一些自帶的模塊。環(huán)境搭建安裝并添加到環(huán)境變量,安裝需要的相關(guān)模塊即可。 ...
摘要:今天為大家整理了個(gè)爬蟲項(xiàng)目。地址新浪微博爬蟲主要爬取新浪微博用戶的個(gè)人信息微博信息粉絲和關(guān)注。代碼獲取新浪微博進(jìn)行登錄,可通過多賬號(hào)登錄來防止新浪的反扒。涵蓋鏈家爬蟲一文的全部代碼,包括鏈家模擬登錄代碼。支持微博知乎豆瓣。 showImg(https://segmentfault.com/img/remote/1460000018452185?w=1000&h=667); 今天為大家整...
摘要:當(dāng)我們?cè)噲D從新浪微博抓取數(shù)據(jù)時(shí),我們會(huì)發(fā)現(xiàn)網(wǎng)頁上提示未登錄,無法查看其他用戶的信息。三模擬登錄下面將介紹使用獲取新浪微博,然后使用提交從而實(shí)現(xiàn)模擬登錄。 當(dāng)我們?cè)噲D從新浪微博抓取數(shù)據(jù)時(shí),我們會(huì)發(fā)現(xiàn)網(wǎng)頁上提示未登錄,無法查看其他用戶的信息。模擬登錄是定向爬蟲制作中一個(gè)必須克服的問題,只有這樣才能爬取到更多的內(nèi)容。 showImg(https://segmentfault.com/img/...
閱讀 1131·2021-11-19 09:40
閱讀 976·2021-11-12 10:36
閱讀 1274·2021-09-22 16:04
閱讀 3118·2021-09-09 11:39
閱讀 1277·2019-08-30 10:51
閱讀 1892·2019-08-30 10:48
閱讀 1234·2019-08-29 16:30
閱讀 479·2019-08-29 12:37