摘要:因此我們可以通過腳本,自動化地從這些網(wǎng)站上抓取代理并測試其可用性,最終過濾出一批可用的代理。
做安全測試時經(jīng)常需要通過切換IP來探測或者繞過一些安全防護策略,有一些網(wǎng)站會提供免費或者付費的代理IP,而無論是免費還是付費的都不能完全保證代理服務(wù)器的可用性,如果一個個手動嘗試將會是一件很痛苦的事情。因此我們可以通過腳本,自動化地從這些網(wǎng)站上抓取代理IP并測試其可用性,最終過濾出一批可用的代理IP。
代碼托管在Github
IntroductionProxy Server Crawler is a tool used to crawl public proxy servers from proxy websites. When crawled a proxy server(ip::port::type), it will test the functionality of the server automatically.
Currently supported websites:
http://www.66ip.cn
http://www.cz88.net
http://www.cn-proxy.com
http://www.haodailiip.com
http://www.kuaidaili.com
http://www.proxylists.net
http://www.qiaodm.net
http://www.socks-proxy.net
http://www.xroxy.com
http://www.xicidaili.com
Currently supported testing(for http proxy)
ssl support
post support
speed (tested with 10 frequently used sites)
type(high/anonymous/transparent)
RequirementsPython >= 2.7
Scrapy 1.3.0 (not tested for lower version)
node (for some sites, you need node to bypass waf based on javascript)
Usagecd proxy_server_crawler scrapy crawl chunzhenlog
[ result] ip: 59.41.214.218 , port: 3128 , type: http, proxy server not alive or healthy. [ result] ip: 117.90.6.67 , port: 9000 , type: http, proxy server not alive or healthy. [ result] ip: 117.175.183.10 , port: 8123 , speed: 984 , type: high [ result] ip: 180.95.154.221 , port: 80 , type: http, proxy server not alive or healthy. [ result] ip: 110.73.0.206 , port: 8123 , type: http, proxy server not alive or healthy. [ proxy] ip: 124.88.67.54 , port: 80 , speed: 448 , type: high , post: True , ssl: False [ result] ip: 117.90.2.149 , port: 9000 , type: http, proxy server not alive or healthy. [ result] ip: 115.212.165.170, port: 9000 , type: http, proxy server not alive or healthy. [ proxy] ip: 118.123.22.192 , port: 3128 , speed: 769 , type: high , post: True , ssl: False [ proxy] ip: 117.175.183.10 , port: 8123 , speed: 908 , type: high , post: True , ssl: TrueLicense
The MIT License (MIT)
文章版權(quán)歸作者所有,未經(jīng)允許請勿轉(zhuǎn)載,若此文章存在違規(guī)行為,您可以聯(lián)系管理員刪除。
轉(zhuǎn)載請注明本文地址:http://systransis.cn/yun/38400.html
摘要:所以你可以直接了解下億牛云代理。最重要的是億牛云的代理每個業(yè)務(wù)只做一個客戶,雖然這在一定程度上減少了客戶的使用量,但是這個就保證了客戶使用代理的效果,客戶獨享代理和跟其他的客戶共享代理,使用的效果是有很大的差別的。 現(xiàn)如今大數(shù)據(jù)是很火熱的行業(yè),隨著互聯(lián)網(wǎng)的快速發(fā)展,大數(shù)據(jù)在很多方面都是得到應(yīng)用,但是大數(shù)據(jù)信息的獲得需要通過數(shù)據(jù)采集來實現(xiàn)。而爬蟲工作者在獲取大量數(shù)據(jù)的過程中,ip是一必須...
摘要:本次使用天天基金網(wǎng)進行爬蟲,該網(wǎng)站具有反爬機制,同時數(shù)量足夠大,多線程效果較為明顯。技術(shù)路線代理池多線程爬蟲與反爬編寫思路首先,開始分析天天基金網(wǎng)的一些數(shù)據(jù)。一旦使用多線程,則需要考慮到數(shù)據(jù)的讀寫順序問題。 @[TOC] 簡介 提到爬蟲,大部分人都會想到使用Scrapy工具,但是僅僅停留在會使用的階段。為了增加對爬蟲機制的理解,我們可以手動實現(xiàn)多線程的爬蟲過程,同時,引入IP代理池進行...
摘要:近來知乎上如雨后春筍般冒出了大把大把的爬蟲教程。一個爬蟲教程的案例三個月之后還能有效已經(jīng)是萬幸了。不過仍然要說明,即使經(jīng)過多次驗證,也無法保證一個的絕對可用性。這是個概率問題,工具的作用只是盡可能提高概率。 近來知乎上如雨后春筍般冒出了大把大把的爬蟲教程。這是好事,學(xué)了 Python 基礎(chǔ)的同學(xué)們可以很輕松地搜出許多練手的例子。不過我不是針對誰,我是說網(wǎng)上絕大多數(shù)的爬蟲教程,其實都缺乏...
摘要:降低的結(jié)果可能有三個隨著數(shù)據(jù)量的增大的性能受到了一定的影響知乎校驗器在把中的代理消費完之后,由于是定時任務(wù),所以導(dǎo)致某段時間內(nèi)新鮮的空缺。 歷時大致兩個月,到現(xiàn)在終于完成了分布式代理抓取爬蟲,目前開源在了Github上。寫這個項目的原因主要有兩點,一是自己平時的部分工作需要和爬蟲打交道,代理IP在有的時候可以發(fā)揮非常重要的作用,調(diào)研過一些開源的代理IP采集程序,發(fā)現(xiàn)在抓取、解析、校驗、...
摘要:使用中間件本次的測試站點依舊使用,通過訪問可以獲取當(dāng)前請求的地址。中間件默認是開啟的,可以查看其源碼重點為方法。修改代理的方式非常簡單,只需要在請求創(chuàng)建的時候,增加參數(shù)即可。接下來將可用的代理保存到文件中。同步修改文件中的代碼。 ...
閱讀 3431·2021-10-20 13:49
閱讀 2806·2021-09-29 09:34
閱讀 3701·2021-09-01 11:29
閱讀 3087·2019-08-30 11:01
閱讀 849·2019-08-29 17:10
閱讀 886·2019-08-29 12:48
閱讀 2788·2019-08-29 12:40
閱讀 1361·2019-08-29 12:30