成人国产在线小视频_日韩寡妇人妻调教在线播放_色成人www永久在线观看_2018国产精品久久_亚洲欧美高清在线30p_亚洲少妇综合一区_黄色在线播放国产_亚洲另类技巧小说校园_国产主播xx日韩_a级毛片在线免费

資訊專欄INFORMATION COLUMN

Python爬蟲學(xué)習(xí):微信、知乎、新浪等主流網(wǎng)站的模擬登陸爬取方法

Kahn / 2497人閱讀

摘要:微信知乎新浪等主流網(wǎng)站的模擬登陸爬取方法摘要微信知乎新浪等主流網(wǎng)站的模擬登陸爬取方法。先說說很難爬的知乎,假如我們想爬取知乎主頁的內(nèi)容,就必須要先登陸才能爬,不然看不到這個(gè)界面。圖片描述知乎需要手機(jī)號(hào)才能注冊(cè)登陸。

微信、知乎、新浪等主流網(wǎng)站的模擬登陸爬取方法
摘要:微信、知乎、新浪等主流網(wǎng)站的模擬登陸爬取方法。

網(wǎng)絡(luò)上有形形色色的網(wǎng)站,不同類型的網(wǎng)站爬蟲策略不同,難易程度也不一樣。從是否需要登陸這方面來說,一些簡單網(wǎng)站不需要登陸就可以爬,比如之前爬過的貓眼電影、東方財(cái)富網(wǎng)等。有一些網(wǎng)站需要先登陸才能爬,比如知乎、微信等。這類網(wǎng)站在模擬登陸時(shí)需要處理驗(yàn)證碼、js 加密參數(shù)這些問題,爬取難度會(huì)大很多。費(fèi)很大力氣登陸進(jìn)去后才能爬取想要的內(nèi)容,很花時(shí)間。

是不是一定要自己動(dòng)手去實(shí)現(xiàn)每一個(gè)網(wǎng)站的模擬登陸方法呢,從效率上來講,其實(shí)大可不必,已經(jīng)有前人替我們?cè)旌幂喿恿恕?/p>

最近發(fā)現(xiàn)一個(gè)神庫,匯總了數(shù)十個(gè)主流網(wǎng)站的模擬登陸方法:

知乎
微信網(wǎng)頁版登錄并獲取好友列表
Bilibili
Facebook
無需身份驗(yàn)證即可抓取Twitter前端API
微博網(wǎng)頁版
QQZone
CSDN
淘寶
Baidu
果殼
JingDong 模擬登錄
163mail
拉鉤
豆瓣
Baidu2
獵聘網(wǎng)
Github
爬取圖蟲相應(yīng)的圖片
網(wǎng)易云音樂
糗事百科
這些網(wǎng)站基本采用的是直接登錄或者 selenium+webdriver 方式。每一個(gè)網(wǎng)站都有完整的模擬登陸代碼,拿來就可以用到自己的爬蟲中。

下面我們來測試一下。

先說說很難爬的「知乎」,假如我們想爬取知乎主頁的 HTML 內(nèi)容,就必須要先登陸才能爬,不然看不到這個(gè)界面。下面來簡單梳理一下流程。

圖片描述

知乎需要手機(jī)號(hào)才能注冊(cè)登陸。為了方便測試,可以隨便找個(gè)手機(jī)號(hào),手機(jī)號(hào)到哪兒去找呢,兩個(gè)神網(wǎng)站保護(hù)你的隱私 這篇文章里介紹了一個(gè)免費(fèi)電話號(hào)碼網(wǎng)站,用上面的手機(jī)號(hào)可以成功注冊(cè)。

圖片描述

順利登錄后就可以進(jìn)入主頁了。

下面,我們用這個(gè)庫提供的代碼來模擬登陸,輸出主頁 HTML 內(nèi)容作測試。操作很簡單,只需要輸入手機(jī)號(hào)、密碼和驗(yàn)證碼就可以了。

成功登陸后,接下來就可以做一些有意思的事了。比如曾有人爬取所有知乎賬號(hào)的信息,分析了知乎用戶群體畫像。

是不是有點(diǎn)意思。

再來看看微信。用上面的微信代碼可以把全部微信好友信息爬取下來,比如:昵稱、性別、地域、個(gè)性簽名。接著可以分析一下你的朋友圈是什么樣的,應(yīng)該會(huì)很有趣。


還可以爬 B 站:


還可以爬鏈家租房信息:


還有很多實(shí)用有趣的內(nèi)容,就不一一羅列了,感興趣的話可以試試。不要悶頭造輪子,多抬抬頭會(huì)發(fā)現(xiàn)你在做/想做的東西,別人早已經(jīng)弄好了,拿來用或者參考學(xué)習(xí)都是件好事。

文章版權(quán)歸作者所有,未經(jīng)允許請(qǐng)勿轉(zhuǎn)載,若此文章存在違規(guī)行為,您可以聯(lián)系管理員刪除。

轉(zhuǎn)載請(qǐng)注明本文地址:http://systransis.cn/yun/43908.html

相關(guān)文章

  • 首次公開,整理12年積累博客收藏夾,零距離展示《收藏夾吃灰》系列博客

    摘要:時(shí)間永遠(yuǎn)都過得那么快,一晃從年注冊(cè),到現(xiàn)在已經(jīng)過去了年那些被我藏在收藏夾吃灰的文章,已經(jīng)太多了,是時(shí)候把他們整理一下了。那是因?yàn)槭詹貖A太亂,橡皮擦給設(shè)置私密了,不收拾不好看呀。 ...

    Harriet666 評(píng)論0 收藏0
  • 23個(gè)Python爬蟲開源項(xiàng)目代碼,包含微信、淘寶、豆瓣、知乎、微博

    摘要:今天為大家整理了個(gè)爬蟲項(xiàng)目。地址新浪微博爬蟲主要爬取新浪微博用戶的個(gè)人信息微博信息粉絲和關(guān)注。代碼獲取新浪微博進(jìn)行登錄,可通過多賬號(hào)登錄來防止新浪的反扒。涵蓋鏈家爬蟲一文的全部代碼,包括鏈家模擬登錄代碼。支持微博知乎豆瓣。 showImg(https://segmentfault.com/img/remote/1460000018452185?w=1000&h=667); 今天為大家整...

    jlanglang 評(píng)論0 收藏0
  • Python入門網(wǎng)絡(luò)爬蟲之精華版

    摘要:學(xué)習(xí)網(wǎng)絡(luò)爬蟲主要分個(gè)大的版塊抓取,分析,存儲(chǔ)另外,比較常用的爬蟲框架,這里最后也詳細(xì)介紹一下。網(wǎng)絡(luò)爬蟲要做的,簡單來說,就是實(shí)現(xiàn)瀏覽器的功能。 Python學(xué)習(xí)網(wǎng)絡(luò)爬蟲主要分3個(gè)大的版塊:抓取,分析,存儲(chǔ) 另外,比較常用的爬蟲框架Scrapy,這里最后也詳細(xì)介紹一下。 首先列舉一下本人總結(jié)的相關(guān)文章,這些覆蓋了入門網(wǎng)絡(luò)爬蟲需要的基本概念和技巧:寧哥的小站-網(wǎng)絡(luò)爬蟲,當(dāng)我們?cè)跒g覽器中輸入...

    Bmob 評(píng)論0 收藏0
  • 零基礎(chǔ)如何學(xué)爬蟲技術(shù)

    摘要:楚江數(shù)據(jù)是專業(yè)的互聯(lián)網(wǎng)數(shù)據(jù)技術(shù)服務(wù),現(xiàn)整理出零基礎(chǔ)如何學(xué)爬蟲技術(shù)以供學(xué)習(xí),。本文來源知乎作者路人甲鏈接楚江數(shù)據(jù)提供網(wǎng)站數(shù)據(jù)采集和爬蟲軟件定制開發(fā)服務(wù),服務(wù)范圍涵蓋社交網(wǎng)絡(luò)電子商務(wù)分類信息學(xué)術(shù)研究等。 楚江數(shù)據(jù)是專業(yè)的互聯(lián)網(wǎng)數(shù)據(jù)技術(shù)服務(wù),現(xiàn)整理出零基礎(chǔ)如何學(xué)爬蟲技術(shù)以供學(xué)習(xí),http://www.chujiangdata.com。 第一:Python爬蟲學(xué)習(xí)系列教程(來源于某博主:htt...

    KunMinX 評(píng)論0 收藏0
  • python

    Python裝飾器為什么難理解? 無論項(xiàng)目中還是面試都離不開裝飾器話題,裝飾器的強(qiáng)大在于它能夠在不修改原有業(yè)務(wù)邏輯的情況下對(duì)代碼進(jìn)行擴(kuò)展,權(quán)限校驗(yàn)、用戶認(rèn)證、日志記錄、性能測試、事務(wù)處理、緩存等都是裝飾器的絕佳應(yīng)用場景,它能夠最大程度地對(duì)代碼進(jìn)行復(fù)用。 但為什么初學(xué)者對(duì)裝飾器的理解如此困難,我認(rèn)為本質(zhì)上是對(duì)Py… Python 實(shí)現(xiàn)車牌定位及分割 作者用 Python 實(shí)現(xiàn)車牌定位及分割的實(shí)踐。 ...

    chenatu 評(píng)論0 收藏0

發(fā)表評(píng)論

0條評(píng)論

最新活動(dòng)
閱讀需要支付1元查看
<