Python 從零開始爬蟲(一)——爬蟲偽裝&反“反爬”

int64 發(fā)布于2019-07-30 16:11 / 1861人閱讀

摘要：總的來說有兩種反爬策略，要么驗(yàn)證身份，把蟲子踩死在門口要么在網(wǎng)站植入各種反爬機(jī)制，讓爬蟲知難而退。本節(jié)內(nèi)容就著這兩種反爬策略提出一些對(duì)策。內(nèi)嵌反爬很靈活，沒有什么固定的代碼格式，要花時(shí)間去分析出來。

??之前提到過，有些網(wǎng)站是防爬蟲的。其實(shí)事實(shí)是，凡是有一定規(guī)模的網(wǎng)站，大公司的網(wǎng)站，或是盈利性質(zhì)比較強(qiáng)的網(wǎng)站，都是有高級(jí)的防爬措施的?？偟膩碚f有兩種反爬策略，要么驗(yàn)證身份，把蟲子踩死在門口；要么在網(wǎng)站植入各種反爬機(jī)制，讓爬蟲知難而退。
??本節(jié)內(nèi)容就著這兩種反爬策略提出一些對(duì)策。

身份偽裝

??就算是一些不知名的小網(wǎng)站，多多少少還會(huì)檢查一下headers驗(yàn)證一下訪者的身份，大網(wǎng)站就更不用說了（我一次爬網(wǎng)易云的時(shí)候，忘記加headers，直接被紅掉）
??所以，為了讓蟲寶們帶著信息凱旋歸來，我們要教會(huì)爬蟲們?nèi)绾?strong>偽裝；有時(shí)光偽裝也不行，我們還要教爬蟲具體"如何做人"，讓自己的舉止更像普通人而不是比單身漢手速還快的未知生物。

自定制 Requests Headers

“吾是人！”——修改user-agent：里面儲(chǔ)存的是系統(tǒng)和瀏覽器的型號(hào)版本，通過修改它來假裝自己是人。

“我從河北省來”——修改referer：告訴服務(wù)器你是通過哪個(gè)網(wǎng)址點(diǎn)進(jìn)來的而不是憑空出現(xiàn)的，有些網(wǎng)站會(huì)檢查。

“餅干！”：——帶上cookie，有時(shí)帶不帶餅干得到的結(jié)果是不同的，試著帶餅干去“賄賂”服務(wù)器讓她給你完整的信息。

詳細(xì)數(shù)據(jù)可以F12捉個(gè)包來查看其Requests Headers

headers = {"Referer":"https://accounts.pixiv.net/loginlang=zh&source=pc&view_type=page&ref=wwwtop_accounts_index",#如某些網(wǎng)站（如p站）要檢查referer，就給他加上
           "User-Agent":"Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/65.0.3325.146 Safari/537.36"#每個(gè)爬蟲必備的偽裝
          }
r = requests.get("https://segmentfault.com/a/1190000014383966",headers=headers)

headers數(shù)據(jù)通常用這兩個(gè)即可，而且筆者強(qiáng)烈推薦在爬蟲中為每個(gè)request都配個(gè)user-agent，總比什么都沒有好，加了也不會(huì)報(bào)錯(cuò)。

降低主IP訪問頻率

注意：這是針對(duì)長期的，大范圍的爬蟲的

有些網(wǎng)站會(huì)監(jiān)視某個(gè)ip的訪問頻率和次數(shù)，一但超過某個(gè)閾值，就把你當(dāng)作爬蟲嫌犯趕出去了，這時(shí)就要想辦法降低自己的存在感了。

Zzzzz——休眠：爬一段時(shí)間后休息一會(huì)，不僅是為了自己的成功，也是為服務(wù)器著想。

我不去，我派別人去——ip代理：通過proxies參數(shù)來使用，前提是你要有ip，好的ip代理是要花錢的。

time.sleep(60)#用python自帶time模塊的休眠功能
proxies = {"http": "http://10.10.1.10:3128",#“協(xié)議類型：完整ip地址+端號(hào)”
           "https": "http://10.10.1.10:1080"}#代理ip字典，隨機(jī)調(diào)用
r = requests.get(url,headers=headers,proxies=proxies)

反反爬（簡析）

在系列第零篇中我提到獲取網(wǎng)頁源碼是有坑的，沒錯(cuò)，有些時(shí)候headers偽裝什么的都做足了，可你還是不能如愿以償?shù)墨@得正確的網(wǎng)頁源碼，要么缺，要么給你一堆毫不相關(guān)的東西，要么干脆讓你紅掉。
這說明要點(diǎn)不是偽不偽裝的問題了，而是如何去解讀網(wǎng)頁的防爬機(jī)制從而推出解決方法，這就要求比較高的觀察和分析能力了。

就我目前遇到的主要有：

隨機(jī)校驗(yàn)碼：網(wǎng)頁生成隨機(jī)碼，并要求你將其提交才接受你的請(qǐng)求（多用在登錄驗(yàn)證中）?！@種校驗(yàn)碼通常藏在網(wǎng)頁源碼中，先取再交是策略。

無序網(wǎng)址：網(wǎng)址后跟著一大串看不出規(guī)律的東西?！@種東西是沒話說的，直接上selenium。

加密/雜亂的源碼：你知道你要的東西就在那里，但是不知道怎樣提取出來?！评斫庵i，看腦子好不好使了。

動(dòng)態(tài)加載：需要和頁面交互才能獲取更多信息，但是爬蟲沒法和它交互啊?！苯由?strong>selenium/手動(dòng)捉包分析出目標(biāo)鏈接

ajax技術(shù)：異步加載，網(wǎng)頁內(nèi)容分次加載，用爬蟲只能得到第一次發(fā)出的html，導(dǎo)致信息不全?！?strong>selenium/手動(dòng)捉包分析出目標(biāo)連接

補(bǔ)充：
selenium模塊，模擬瀏覽器，強(qiáng)是強(qiáng)但是缺點(diǎn)是慢。
其實(shí)動(dòng)態(tài)加載是為了方便用戶點(diǎn)哪看哪的，但這也加大了爬蟲的難度，因?yàn)楹芏嘈畔⒁虼吮浑[藏了起來。

最后

偽裝有套路，代碼直接套，多加headers總沒錯(cuò)。

內(nèi)嵌反爬很靈活，沒有什么固定的代碼格式，要花時(shí)間去分析出來。

本文新出現(xiàn)的方法/模塊，后面會(huì)有實(shí)例，不要方。

下一篇正式進(jìn)入網(wǎng)頁解析主題，之后就可以開始寫小爬蟲了?(＾?＾●)?。

GPU云服務(wù)器云服務(wù)器從零開始學(xué)python網(wǎng)絡(luò)爬蟲 python反爬蟲策略 python從零開始從零開始學(xué)python

文章版權(quán)歸作者所有，未經(jīng)允許請(qǐng)勿轉(zhuǎn)載,若此文章存在違規(guī)行為，您可以聯(lián)系管理員刪除。

轉(zhuǎn)載請(qǐng)注明本文地址：http://systransis.cn/yun/41540.html

發(fā)表評(píng)論

登陸后可評(píng)論

0條評(píng)論

int64

男|高級(jí)講師

我要關(guān)注我要私信

TA的文章

BREW 應(yīng)用中的SVG技術(shù)

閱讀 2764·2021-11-22 14:45
Netfront：自10月1日起啟用三區(qū)數(shù)據(jù)中心，互相支持備用，香港VPS云服務(wù)器/月付41元起

閱讀 913·2021-10-15 09:41
51單片機(jī)學(xué)習(xí)筆記001-----51單片機(jī)基礎(chǔ)構(gòu)造淺介紹

閱讀 1073·2021-09-27 13:35
LightNode：香港/臺(tái)灣/新加坡vps,亞洲多地機(jī)房;按小時(shí)計(jì)費(fèi),月付$7.71起,注冊(cè)最高送

閱讀 3696·2021-09-09 11:56
看到一種css實(shí)現(xiàn)圓角的方法

閱讀 2640·2019-08-30 13:03
【靜態(tài)頁面架構(gòu)】CSS之列表

閱讀 3203·2019-08-29 16:32
是時(shí)候擁有一個(gè)你自己的命令行工具了

閱讀 3311·2019-08-26 13:49
微信小游戲排行榜的原生顯示

閱讀 776·2019-08-26 10:35

成人国产在线小视频_日韩寡妇人妻调教在线播放_色成人www永久在线观看_2018国产精品久久_亚洲欧美高清在线30p_亚洲少妇综合一区_黄色在线播放国产_亚洲另类技巧小说校园_国产主播xx日韩_a级毛片在线免费

資訊專欄INFORMATION COLUMN

上云采購季！| 2核2G4M爆款云服務(wù)器低至59元/年，更有多臺(tái)、長期優(yōu)惠，快來選購！

Python 從零開始爬蟲(一)——爬蟲偽裝&反“反爬”

相關(guān)文章

極簡爬蟲攻防戰(zhàn)紀(jì)要

**如何快速掌握Python數(shù)據(jù)采集與網(wǎng)絡(luò)爬蟲技術(shù)**

爬蟲攻防實(shí)踐

爬蟲攻防實(shí)踐

Python 從零開始爬蟲(零)——爬蟲思路&requests模塊使用

發(fā)表評(píng)論

0條評(píng)論

int64

男|高級(jí)講師

TA的文章

BREW 應(yīng)用中的SVG技術(shù)

Netfront：自10月1日起啟用三區(qū)數(shù)據(jù)中心，互相支持備用，香港VPS云服務(wù)器/月付41元起

51單片機(jī)學(xué)習(xí)筆記001-----51單片機(jī)基礎(chǔ)構(gòu)造淺介紹

LightNode：香港/臺(tái)灣/新加坡vps,亞洲多地機(jī)房;按小時(shí)計(jì)費(fèi),月付$7.71起,注冊(cè)最高送

看到一種css實(shí)現(xiàn)圓角的方法

【靜態(tài)頁面架構(gòu)】CSS之列表

是時(shí)候擁有一個(gè)你自己的命令行工具了

微信小游戲排行榜的原生顯示

最新活動(dòng)

資訊專欄INFORMATION COLUMN

上云采購季！| 2核2G4M爆款云服務(wù)器低至59元/年，更有多臺(tái)、長期優(yōu)惠，快來選購！

Python 從零開始爬蟲(一)——爬蟲偽裝&反“反爬”

相關(guān)文章

發(fā)表評(píng)論

0條評(píng)論

男|高級(jí)講師

TA的文章

最新活動(dòng)

上云采購季！| 2核2G4M爆款云服務(wù)器低至59元/年，更有多臺(tái)、長期優(yōu)惠，快來選購！