成人国产在线小视频_日韩寡妇人妻调教在线播放_色成人www永久在线观看_2018国产精品久久_亚洲欧美高清在线30p_亚洲少妇综合一区_黄色在线播放国产_亚洲另类技巧小说校园_国产主播xx日韩_a级毛片在线免费

資訊專欄INFORMATION COLUMN

給新手的Python微博爬蟲

XUI / 925人閱讀

摘要:結(jié)合項(xiàng)目代碼看比較好一些說明爬的是手機(jī)端網(wǎng)頁版的微博聽說這個(gè)爬起來簡單,我就爬了。最后的數(shù)據(jù)采用序列化后存儲(chǔ)在本地想用數(shù)據(jù)庫的自己改一下就好了,不會(huì)的可以去看看廖雪峰老師的教程。關(guān)于,可以看廖雪峰老師的講解。

為什么說是給新手的呢?

因?yàn)轫?xiàng)目很小,算上空行才200來行代碼,甚至有些“簡陋”。相比于動(dòng)不動(dòng)寫成幾個(gè)大模塊的教程,新手們能更快理解我在干什么,節(jié)省學(xué)習(xí)時(shí)間。當(dāng)然,該有的模擬登陸,數(shù)據(jù)解析也都不少。

Tip: 結(jié)合項(xiàng)目代碼看比較好

一些說明

爬的是手機(jī)端網(wǎng)頁版的微博(聽說這個(gè)爬起來簡單,我就爬了)。

模擬登陸采用POST表單實(shí)現(xiàn),不是復(fù)制粘貼 cookie(復(fù)制粘貼沒什么技術(shù)含量,都不用動(dòng)腦子,想用的可以自己試一試)。

最后的數(shù)據(jù)采用pickle序列化后存儲(chǔ)在本地(想用數(shù)據(jù)庫的自己改一下就好了,不會(huì)的可以去看看廖雪峰老師的教程)。

微博內(nèi)容只取文本內(nèi)容。(因?yàn)槲覒校?/p>

為了不給別人添麻煩,亦本學(xué)習(xí)交流之意,對(duì)爬取的速度做了限制。

代碼結(jié)構(gòu)

大體上分為兩部分,一個(gè) WBCrawler 類,一個(gè) show_random_data . 前者爬取并保存,后者隨機(jī)檢查一下。

關(guān)于登錄時(shí)所提交的表單涉及到的字段,我都在代碼里面寫了??戳怂膉avascript文件,有的字段在用帳號(hào)密碼登錄時(shí)就是空值。

HTTP 請(qǐng)求用 requests.seesion 發(fā)送,并且在項(xiàng)目退出時(shí)會(huì)保存 session,以便再次使用。這里當(dāng)然也是用的pickle序列化保存。

為了節(jié)約,長微博和短微博會(huì)在不同的地方進(jìn)行解析,所以大家會(huì)看到有的地方寫了兩種解析方式。

其中有一個(gè)函數(shù)使用了 yield 語句,是為了降低耦合。關(guān)于 yield ,可以看廖雪峰老師的講解。關(guān)于什么是耦合,我也不太清楚,我這里是為了不讓函數(shù)之間調(diào)用得太緊湊,適當(dāng)?shù)鬲?dú)立出來。

類的初始化函數(shù)中的 maximum 參數(shù)指爬取幾頁,默認(rèn)爬兩頁。

文章版權(quán)歸作者所有,未經(jīng)允許請(qǐng)勿轉(zhuǎn)載,若此文章存在違規(guī)行為,您可以聯(lián)系管理員刪除。

轉(zhuǎn)載請(qǐng)注明本文地址:http://systransis.cn/yun/40721.html

相關(guān)文章

  • 超詳細(xì)Python實(shí)現(xiàn)新浪微博模擬登陸(小白都能懂)

    摘要:可能有的老手覺得我寫得很啰嗦,但其實(shí)很多新手可能都不知道這些細(xì)節(jié),所以我把我在分析新浪微博模擬登陸的過程全寫了出來。 這篇文章于去年4月發(fā)布在我的簡書,現(xiàn)在把它放到這里,主要是為了宣傳自己的分布式微博爬蟲。下面是主要內(nèi)容,希望能幫到有這個(gè)需求的朋友 最近由于需要一直在研究微博的爬蟲,第一步便是模擬登陸,從開始摸索到走通模擬登陸這條路其實(shí)還是挺艱難的,需要一定的經(jīng)驗(yàn),為了讓朋友們以后少...

    Aldous 評(píng)論0 收藏0
  • 后端技術(shù) - 收藏集 - 掘金

    摘要:理解迭代對(duì)象迭代器生成器后端掘金本文源自作者的一篇博文,原文是,俺寫的這篇文章是按照自己的理解做的參考翻譯。比較的是兩個(gè)對(duì)象的內(nèi)容是后端掘金黑魔法之協(xié)程異步后端掘金本文為作者原創(chuàng),轉(zhuǎn)載請(qǐng)先與作者聯(lián)系。 完全理解關(guān)鍵字with與上下文管理器 - 掘金如果你有閱讀源碼的習(xí)慣,可能會(huì)看到一些優(yōu)秀的代碼經(jīng)常出現(xiàn)帶有 with 關(guān)鍵字的語句,它通常用在什么場景呢?今天就來說說 with 和 上下...

    oujie 評(píng)論0 收藏0
  • Python爬蟲實(shí)戰(zhàn),requests模塊,Python實(shí)現(xiàn)抓取微博評(píng)論

    摘要:前言利用實(shí)現(xiàn)抓取微博評(píng)論數(shù)據(jù),廢話不多說。讓我們愉快地開始吧開發(fā)工具版本相關(guān)模塊模塊模塊模塊模塊模塊以及一些自帶的模塊。環(huán)境搭建安裝并添加到環(huán)境變量,安裝需要的相關(guān)模塊即可。 ...

    jaysun 評(píng)論0 收藏0
  • 23個(gè)Python爬蟲開源項(xiàng)目代碼,包含微信、淘寶、豆瓣、知乎、微博

    摘要:今天為大家整理了個(gè)爬蟲項(xiàng)目。地址新浪微博爬蟲主要爬取新浪微博用戶的個(gè)人信息微博信息粉絲和關(guān)注。代碼獲取新浪微博進(jìn)行登錄,可通過多賬號(hào)登錄來防止新浪的反扒。涵蓋鏈家爬蟲一文的全部代碼,包括鏈家模擬登錄代碼。支持微博知乎豆瓣。 showImg(https://segmentfault.com/img/remote/1460000018452185?w=1000&h=667); 今天為大家整...

    jlanglang 評(píng)論0 收藏0
  • Python定向爬蟲,模擬新浪微博登錄!

    摘要:當(dāng)我們?cè)噲D從新浪微博抓取數(shù)據(jù)時(shí),我們會(huì)發(fā)現(xiàn)網(wǎng)頁上提示未登錄,無法查看其他用戶的信息。三模擬登錄下面將介紹使用獲取新浪微博,然后使用提交從而實(shí)現(xiàn)模擬登錄。 當(dāng)我們?cè)噲D從新浪微博抓取數(shù)據(jù)時(shí),我們會(huì)發(fā)現(xiàn)網(wǎng)頁上提示未登錄,無法查看其他用戶的信息。模擬登錄是定向爬蟲制作中一個(gè)必須克服的問題,只有這樣才能爬取到更多的內(nèi)容。 showImg(https://segmentfault.com/img/...

    isaced 評(píng)論0 收藏0

發(fā)表評(píng)論

0條評(píng)論

最新活動(dòng)
閱讀需要支付1元查看
<