python爬蟲代理ip解決辦法

89542767 發(fā)布于2022-11-05 15:46 / 598人閱讀

　　對(duì)于python爬蟲來(lái)說(shuō)，大多人聽起來(lái)是比較陌生的，但是對(duì)于一些專業(yè)人來(lái)說(shuō)，對(duì)其了解還是比較的深刻的。但是，也會(huì)遇到一些問題，比如我們?cè)谑褂门老x爬取的時(shí)候，如果遇到對(duì)方設(shè)置了一些爬蟲限制，那么爬起來(lái)就比較的麻煩了。那么，遇到代理ip問題的話，要怎么去解決呢？下面就給大家詳細(xì)解答下。

　　主要內(nèi)容：代理ip使用原理，怎么在自己的爬蟲里設(shè)置代理ip，怎么知道代理ip是否生效，沒生效的話哪里出了問題，個(gè)人使用的代理ip(付費(fèi)）。

　　代理ip原理

　　輸入網(wǎng)址后發(fā)生了什么呢？

　　1.瀏覽器獲取域名

　　2.通過(guò)DNS協(xié)議獲取域名對(duì)應(yīng)服務(wù)器的ip地址

　　3.瀏覽器和對(duì)應(yīng)的服務(wù)器通過(guò)三次握手建立TCP連接

　　4.瀏覽器通過(guò)HTTP協(xié)議向服務(wù)器發(fā)送數(shù)據(jù)請(qǐng)求

　　5.服務(wù)器將查詢結(jié)果返回給瀏覽器

　　6.四次揮手釋放TCP連接

　　7.瀏覽器渲染結(jié)果

　　其中涉及到了：

　　應(yīng)用層：HTTP和DNS

　　傳輸層：TCP UDP

　　網(wǎng)絡(luò)層：IP ICMP ARP

　　代理ip做了什么呢？

　　簡(jiǎn)單來(lái)說(shuō)，就是：

　　原本你的訪問

　　使用代理后你的訪問

　　為什么要用代理呢？

　　因?yàn)槲覀冊(cè)谧雠老x的過(guò)程中經(jīng)常會(huì)遇到這樣的情況，最初爬蟲正常運(yùn)行，正常抓取數(shù)據(jù)，一切看起來(lái)都是那么美好，然而一杯茶的功夫可能就會(huì)出現(xiàn)錯(cuò)誤，比如403 Forbidden，這時(shí)候打開網(wǎng)頁(yè)一看，可能會(huì)看到“您的IP訪問頻率太高”這樣的提示。出現(xiàn)這種現(xiàn)象的原因是網(wǎng)站采取了一些反爬蟲措施。比如，服務(wù)器會(huì)檢測(cè)某個(gè)IP在單位時(shí)間內(nèi)的請(qǐng)求次數(shù)，如果超過(guò)了這個(gè)閾值，就會(huì)直接拒絕服務(wù)，返回一些錯(cuò)誤信息，這種情況可以稱為封IP。而代理ip就避免了這個(gè)問題：

　　爬蟲代碼中使用代理ip

　　就像是請(qǐng)求時(shí)偽裝頭一樣，偽裝ip，注意是{}

　　proxies={
　　'https':'117.29.228.43:64257',
　　'http':'117.29.228.43:64257'
　　}
　　requests.get(url,headers=head,proxies=proxies,timeout=3)#proxies

　　檢驗(yàn)代理ip是否生效

　　我們?cè)L問一個(gè)網(wǎng)站，這個(gè)網(wǎng)站會(huì)返回我們的ip地址：

　　print(requests.get('http://httpbin.org/ip',proxies=proxies,timeout=3).text)

　　我們看一下我使用了四個(gè)不同的代理ip，全部生效了，

　　未生效問題排查

　　如果你返回的還是本機(jī)地址，99%試一下兩種情況之一：

　　1.請(qǐng)求協(xié)議不匹配

　　簡(jiǎn)單來(lái)說(shuō)就是，如果你請(qǐng)求的是http，就要用http的協(xié)議，如果是https，就要用https的協(xié)議。

　　如果我請(qǐng)求是http，但只有https，就會(huì)使用本機(jī)ip。

　　2.代理失效

　　便宜沒好貨，好貨不便宜。如果確實(shí)大規(guī)模爬蟲是必須的話，還是買代理ip比較好，網(wǎng)上廣告滿天飛的某些代理實(shí)際性價(jià)比有些低了，自己常用的就不分享了，總是被當(dāng)成廣告，推薦一些其他的比如：

　　1、IPIDEA

　　2、Stormproxies

　　3、YourPrivateProxy

　　4、GeoSurf

　　當(dāng)然還有大家熟知的快代理，西刺等等，都有一些免費(fèi)代理可供使用。

　　總結(jié)

　　到此為止，這篇文章就給大家介紹到這里了，希望可以給大家?guī)?lái)幫助。

GPU云服務(wù)器云服務(wù)器 python爬蟲代理ip python爬蟲使用代理ip python爬蟲ip代理池換ip的解決辦法

文章版權(quán)歸作者所有，未經(jīng)允許請(qǐng)勿轉(zhuǎn)載,若此文章存在違規(guī)行為，您可以聯(lián)系管理員刪除。

轉(zhuǎn)載請(qǐng)注明本文地址：http://systransis.cn/yun/128253.html

發(fā)表評(píng)論

登陸后可評(píng)論

0條評(píng)論

89542767

男|高級(jí)講師

我要關(guān)注我要私信

TA的文章

pythontime控制模塊時(shí)間格式與結(jié)構(gòu)型時(shí)長(zhǎng)詳細(xì)說(shuō)明

閱讀 956·2023-01-14 11:38
OpenMV與JSON編碼問題分析

閱讀 936·2023-01-14 11:04
python中的特性管理模式詳細(xì)說(shuō)明

閱讀 787·2023-01-14 10:48
Python運(yùn)用fastapi完成上傳圖片

閱讀 2157·2023-01-14 10:34
pythonopencv圖象高通濾波和低通濾波器的范例編碼

閱讀 1005·2023-01-14 10:24
Python根據(jù)ssh遠(yuǎn)程桌面連接Mysql數(shù)據(jù)庫(kù)操作

閱讀 895·2023-01-14 10:18
本文輕輕松松掌握Python中類的繼承

閱讀 545·2023-01-14 10:09
python中wordcloud組裝方式總結(jié)

閱讀 622·2023-01-14 10:02

成人国产在线小视频_日韩寡妇人妻调教在线播放_色成人www永久在线观看_2018国产精品久久_亚洲欧美高清在线30p_亚洲少妇综合一区_黄色在线播放国产_亚洲另类技巧小说校园_国产主播xx日韩_a级毛片在线免费

資訊專欄INFORMATION COLUMN

上云采購(gòu)季！| 2核2G4M爆款云服務(wù)器低至59元/年，更有多臺(tái)、長(zhǎng)期優(yōu)惠，快來(lái)選購(gòu)！

python爬蟲代理ip解決辦法

相關(guān)文章

**用python抓一點(diǎn)數(shù)據(jù)回來(lái)**

Python入門網(wǎng)絡(luò)爬蟲之精華版

Python 從零開始爬蟲(一)——爬蟲偽裝&反“反爬”

python scrapy 代理中間件，爬蟲必掌握的內(nèi)容之一

scrapy 學(xué)習(xí)之路上的那些坑

發(fā)表評(píng)論

0條評(píng)論

89542767

男|高級(jí)講師

TA的文章

pythontime控制模塊時(shí)間格式與結(jié)構(gòu)型時(shí)長(zhǎng)詳細(xì)說(shuō)明

OpenMV與JSON編碼問題分析

python中的特性管理模式詳細(xì)說(shuō)明

Python運(yùn)用fastapi完成上傳圖片

pythonopencv圖象高通濾波和低通濾波器的范例編碼

Python根據(jù)ssh遠(yuǎn)程桌面連接Mysql數(shù)據(jù)庫(kù)操作

本文輕輕松松掌握Python中類的繼承

python中wordcloud組裝方式總結(jié)

最新活動(dòng)

資訊專欄INFORMATION COLUMN

上云采購(gòu)季！| 2核2G4M爆款云服務(wù)器低至59元/年，更有多臺(tái)、長(zhǎng)期優(yōu)惠，快來(lái)選購(gòu)！

python爬蟲代理ip解決辦法

相關(guān)文章

發(fā)表評(píng)論

0條評(píng)論

男|高級(jí)講師

TA的文章

最新活動(dòng)

上云采購(gòu)季！| 2核2G4M爆款云服務(wù)器低至59元/年，更有多臺(tái)、長(zhǎng)期優(yōu)惠，快來(lái)選購(gòu)！