成人国产在线小视频_日韩寡妇人妻调教在线播放_色成人www永久在线观看_2018国产精品久久_亚洲欧美高清在线30p_亚洲少妇综合一区_黄色在线播放国产_亚洲另类技巧小说校园_国产主播xx日韩_a级毛片在线免费

資訊專欄INFORMATION COLUMN

Python 從零開始爬蟲(六)——動態(tài)爬取解決方案 之 手動分析

rozbo / 813人閱讀

摘要:之前提到動態(tài)加載就兩個解決方案手動分析和。背后有許多不為人知的交易進行著,動態(tài)爬取的任務(wù)就是攔截它們揭開它們的真面目。在爬蟲界有著霸王硬上弓的稱號,管它情不情愿,來了動態(tài)加載也只有屈服的份了。

之前提到動態(tài)加載就兩個解決方案——手動分析和selenium。接下來的文章我們會來深入探討它們,本文將首先,重點介紹前者——手動分析

手動分析是一個比較有難度,比較麻煩的解決方案,但優(yōu)點也很明顯:速度快,又能培養(yǎng)我們爬蟲的分析能力(重要)。如果鏈接有規(guī)律可循,建議能手動分析就手動分析,不能再上selenium(培養(yǎng)能力挺重要的不是麼?而且快的爬蟲誰不想要呢?)

動態(tài)的標志

相信大家都有過這樣的經(jīng)歷——進入一個網(wǎng)頁,鼠標到處點,滑輪上下滾,各種框框各種信息都蹦出來了,但是網(wǎng)頁鏈接沒變過,網(wǎng)頁也沒重新刷新過

比如:逛網(wǎng)頁版的網(wǎng)易云音樂的評論時,無論評論翻到第幾頁,網(wǎng)址也不會改變;逛知乎時,鼠標不停往下滾,只要下面還有回答,就會不斷的加載出來,同樣網(wǎng)址也不會改變;segmentfault的問答區(qū)也是

類似這樣能不轉(zhuǎn)跳不刷新就能加載新信息的網(wǎng)頁,就是用了動態(tài)加載。背后有許多不為人知的“交易”進行著,動態(tài)爬取的任務(wù)就是“攔截”它們11揭開它們的真面目。詳細請往下面看

分析什么

首先記住——所有信息在理論上都可以通過請求(鏈接)獲得
然后記住——有些請求需要提交參數(shù),檢查headers什么的來防爬
附加一點——大多數(shù)動態(tài)加載的信息,通常都是json數(shù)據(jù)

有了這些指引提示我們就能描繪出大概的分析思路

首先我們要找到j(luò)son數(shù)據(jù)請求鏈接,通過F12捉包獲得,這種包屬于xhr或js里

然后我們通過分析多個json數(shù)據(jù)的請求鏈接的參數(shù),規(guī)律,推出所有鏈接的結(jié)構(gòu)

如果json數(shù)據(jù)是一個post包,我們還要分析要post的參數(shù)的內(nèi)容,規(guī)律(加密的另談)

分析服務(wù)器是否檢查請求的headers,如是,需要哪些額外headers(指user-agent外)

完成以上四步通常就能獲得目標json數(shù)據(jù),剩下的就是分析json數(shù)據(jù)本身,把目標提取出來,方法上一篇文章講過。

引導實例

繼續(xù)以某寶為例吧,隨便搜一個商品進去,或者點我這個示例商品鏈接。打開F12,換到Network捉j(luò)s的包,點到評論那里,很快就彈出很多個包,逐個查看其response,很快就確定了目標包,然后評論換頁,捉多幾個供鏈接分析用。

這是一個包的請求鏈接

通過對比剛才捉到的多個包的鏈接,和多次試驗性發(fā)送請求,我們可以分析出鏈接結(jié)構(gòu)——ua(包括ua)之后參數(shù)是不影響請求結(jié)果的,currentPageNum是評論頁數(shù),auctionNumId是商品id,userNumId可以不要,這樣就足以構(gòu)造所有json數(shù)據(jù)的請求鏈接,至于一些決定排序的參數(shù)這里就不再多分析,交給讀者。

多次試驗后發(fā)現(xiàn)這個請求鏈接不需要提交數(shù)據(jù),headers加個user-agent就可以返回數(shù)據(jù)
但是taobao返回的json數(shù)據(jù)有坑,注意一下

然后提取json數(shù)據(jù),這樣動態(tài)問題就解決了,可以完整的寫出爬蟲。jd評價的爬取和淘寶類似,詳見github。

知難而退,變法再上

但鏈接亂到毫無規(guī)律可言,或者post參數(shù)加密到連媽都認不出來(而你也懶得或沒能力去分析其加密方法),再或者你上面四步走完折騰了一整天也的得不到信息時,是時候該放手了,機器是死的,人是活的,沒必要和服務(wù)器玩持久戰(zhàn),加密防爬什么都不是我們寫的,破解不出來也是沒辦法的嘛

既然手動分析不行那只能請selenium大佬上場了,這貨能模擬瀏覽器,能解決大部分動態(tài)網(wǎng)站。在爬蟲界有著“霸王硬上弓”的稱號,管它情不情愿,dalao來了動態(tài)加載也只有屈服的份了。這個dalao之后會介紹

下一篇將是一個完整的動態(tài)爬取實例,順便接觸一下帶post參數(shù)的請求。

文章版權(quán)歸作者所有,未經(jīng)允許請勿轉(zhuǎn)載,若此文章存在違規(guī)行為,您可以聯(lián)系管理員刪除。

轉(zhuǎn)載請注明本文地址:http://systransis.cn/yun/41709.html

相關(guān)文章

  • Python 從零開始爬蟲(八)——動態(tài)爬取解決方案 selenium

    摘要:然而讓蟲師們垂涎的并不是以上的種種,而是其通過驅(qū)動瀏覽器獲得的解析的能力。所以說這貨在動態(tài)爬取方面簡直是掛逼級別的存在,相較于手動分析更簡單易用,節(jié)省分析打碼時間。一旦設(shè)置了隱式等待時間,它的作用范圍就是對象實例的整個生命周期。 selenium——自動化測試工具,專門為Web應(yīng)用程序編寫的一個驗收測試工具,測試其兼容性,功能什么的。然而讓蟲師們垂涎的并不是以上的種種,而是其通過驅(qū)動瀏...

    fobnn 評論0 收藏0
  • 首次公開,整理12年積累的博客收藏夾,零距離展示《收藏夾吃灰》系列博客

    摘要:時間永遠都過得那么快,一晃從年注冊,到現(xiàn)在已經(jīng)過去了年那些被我藏在收藏夾吃灰的文章,已經(jīng)太多了,是時候把他們整理一下了。那是因為收藏夾太亂,橡皮擦給設(shè)置私密了,不收拾不好看呀。 ...

    Harriet666 評論0 收藏0
  • Python 從零開始爬蟲(七)——實戰(zhàn):網(wǎng)易云音樂評論爬取(附加密算法)

    摘要:通常這種加密都是通過加密的,所以首先要找到這個有加密算法的。追蹤函數(shù),發(fā)現(xiàn)它指向一個叫的函數(shù),仔細研究許久后大概知道加密算法經(jīng)兩次加密獲得,模式為,偏移量為。 前言 某寶評論區(qū)已經(jīng)成功爬取了,jd的也是差不多的方法,說實話也沒什么好玩的,我是看上它們分析簡單,又沒加密才拿來試手的。如果真的要看些有趣的評論的話,我會選擇網(wǎng)易云音樂,里面匯聚了哲學家,小說家,story-teller,皮皮...

    plus2047 評論0 收藏0
  • 從0-1打造最強性能Scrapy爬蟲集群

    摘要:包括爬蟲編寫爬蟲避禁動態(tài)網(wǎng)頁數(shù)據(jù)抓取部署分布式爬蟲系統(tǒng)監(jiān)測共六個內(nèi)容,結(jié)合實際定向抓取騰訊新聞數(shù)據(jù),通過測試檢驗系統(tǒng)性能。 1 項目介紹 本項目的主要內(nèi)容是分布式網(wǎng)絡(luò)新聞抓取系統(tǒng)設(shè)計與實現(xiàn)。主要有以下幾個部分來介紹: (1)深入分析網(wǎng)絡(luò)新聞爬蟲的特點,設(shè)計了分布式網(wǎng)絡(luò)新聞抓取系統(tǒng)爬取策略、抓取字段、動態(tài)網(wǎng)頁抓取方法、分布式結(jié)構(gòu)、系統(tǒng)監(jiān)測和數(shù)據(jù)存儲六個關(guān)鍵功能。 (2)結(jié)合程序代碼分解說...

    vincent_xyb 評論0 收藏0

發(fā)表評論

0條評論

最新活動
閱讀需要支付1元查看
<