摘要:簡單來說就是瀏覽器向服務器表明身份用的。用戶行為主要靠。爬取數(shù)據(jù)我們的原材料準備好了,開始爬取,可以看見用的是去,池取得隨機配置組成請求。
首先代碼地址奉上
https://github.com/liangyuqi/...
use python to catch the information from ziru(彩蛋見最后)
適合一起剛入門python的同學,我也是萌新,所以代碼可能不是很優(yōu)雅
爬取思路分析見第五部分
二、環(huán)境 Pythonpython --version
(mac自帶)
brew install python
pippip --version
pip 是 Python 包管理工具,該工具提供了對Python 包的查找、下載、安裝、卸載的功能
curl https://bootstrap.pypa.io/get... -o get-pip.py
sudo python get-pip.py
三、安裝依賴pip freeze >package.txt
sudo pip install -r package.txt
四、啟動cd index
chmod a+x ziru_room.py
python ziru_room.py
五、思路分析 1.反反爬蟲一般公司都有安全部門,防止大規(guī)模的撞庫或者帶寬擠占,那爬取的時候肯定會被攔截,定位然后律師函警告。
所以我覺得一個爬蟲系統(tǒng)最重要的就是反 反爬蟲。
我們先分析一下,一般簡單的反爬蟲什么思路?
用戶請求的Headers,用戶行為,網(wǎng)站目錄和數(shù)據(jù)加載方式
headers里面主要根據(jù)userAgent查重。userAgent 屬性是一個只讀的字符串,聲明了瀏覽器用于 HTTP 請求的用戶代理頭的值。簡單來說就是瀏覽器向服務器”表明身份“用的。
用戶行為主要靠ip。ip的話不用講了,和身份證號差不多,所以我們發(fā)起請求應該用動態(tài)的,同一ip多次訪問就可能被拉入ip黑名單,而且會導彈定位到你的服務器所在位置。
第三個方式比較高端了,我這次沒有展示。前兩種是爬蟲偽裝成瀏覽器讀取數(shù)據(jù),但是第三種是模擬出一個瀏覽器進行用戶點擊提交等操作,它本身就是一個沒有界面的瀏覽器,從填寫表單到點擊按鈕再到滾動頁面,全部都可以模擬。這時候就可以根據(jù)一些其它方式,如識別點觸式(12306)或者滑動式的驗證碼。
整理好思路開始實現(xiàn),我們的目標是實現(xiàn)一個動態(tài)的ip和userAgent池,每次請求偽裝成不一樣的來源
step1: 我們?nèi)ヅ廊∫粋€開放代理ip的網(wǎng)站。。。然后試試他開放的ip可不可用,可用的話加入我們的ip池。 詳見 代碼 ziru_room.py
# 經(jīng)測試可用ip usefulIp = [] # 獲取代理ip地址 uriGetIp = "http://www.xicidaili.com/wt/" # 檢測ip是否可用地址 testGetIp = "http://icanhazip.com/" usefulIp = getUsefulIPList(uriGetIp, testGetIp, userAgent)
""" 獲取可用的ip列表 """ def getUsefulIPList(uriGetIp, testGetIp, userAgent): # 全部代理ip allProxys = [] # 經(jīng)測試可用ip usefulIp = [] ipList = requests.get( uriGetIp, headers={"User-Agent": random.choice(userAgent)}) ipData = bs4.BeautifulSoup(ipList.text, "html.parser") ip = ipData.select("#ip_list > tr > td:nth-of-type(2)") port = ipData.select("#ip_list > tr > td:nth-of-type(3)") protocol = ipData.select("#ip_list > tr > td:nth-of-type(6)") for ip, port, protocol in zip(ip, port, protocol): proxy = ip.get_text().strip()+":"+port.get_text().strip() allProxys.append(proxy) print("正在初始化ip數(shù)據(jù)池,請耐心等待...") process.max_steps = len(allProxys) process.process_bar = process.ShowProcess(process.max_steps) # 篩選可用ip for proxy in allProxys: process.process_bar.show_process() # time.sleep(0.05) try: theIp = requests.get(testGetIp, headers={"User-Agent": random.choice(userAgent)}, proxies={ "http": proxy}, timeout=1, allow_redirects=False) except requests.exceptions.Timeout: # print("超過1s") continue except requests.exceptions.ConnectionError: # print("連接異常") continue except requests.exceptions.HTTPError: # print("http異常") continue except: # print("其他錯誤") continue else: if (theIp.status_code == 200 and len(theIp.text) < 20): usefulIp.append(proxy) # print(theIp.text) print("可用ip池為下:"+",".join(usefulIp)) return usefulIp
step2: 構造userAgent池
userAgent = ["Mozilla/5.0 (Macintosh; Intel Mac OS X 10_12_6) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/65.0.3325.181 Safari/537.36", "Mozilla/5.0 (Windows NT 6.1; WOW64; rv:34.0) Gecko/20100101 Firefox/34.0", "Mozilla/5.0 (X11; U; Linux x86_64; zh-CN; rv:1.9.2.10) Gecko/20100922 Ubuntu/10.10 (maverick) Firefox/3.6.10" ]
這個不像ip會經(jīng)常掛,所以寫死問題不大。
2.爬取數(shù)據(jù)我們的原材料準備好了,開始爬取,可以看見用的是random.choice()去ip,userAgent池取得隨機配置 組成 get請求。詳見 代碼 ziru_room.py
def computedData(usefulIp, userAgent, ipIndex=0): # debugger # pdb.set_trace() fhandle = open("../output/output.txt", "a") # 追加寫入文件 # Get請求-并傳遞headers try: data = requests.get("http://www.ziroom.com/z/nl/z3-r3-o2-s5%E5%8F%B7%E7%BA%BF-t%E5%8C%97%E8%8B%91%E8%B7%AF%E5%8C%97.html", headers={"User-Agent": random.choice(userAgent)}, proxies={"http": random.choice(usefulIp)}, timeout=(3, 7)) # pass except: print "Error: 請求失敗" computedData(usefulIp, userAgent) return pass else: roomDate = bs4.BeautifulSoup(data.text, "html.parser") # 標題 title = roomDate.select("#houseList > li > div.txt > h3 > a") # 地點 改版沒了//// # place = roomDate.select("#houseList > li > div.txt > h4 > a") # 距離 distance = roomDate.select( "#houseList > li > div.txt > div > p:nth-of-type(2) > span") # 價格 price = roomDate.select("#houseList > li > div.priceDetail > p.price") # 面積 area = roomDate.select( "#houseList > li > div.txt > div > p:nth-of-type(1) > span:nth-of-type(1)") # 樓層 floor = roomDate.select( "#houseList > li > div.txt > div > p:nth-of-type(1) > span:nth-of-type(2)") # 房間配置 room = roomDate.select( "#houseList > li > div.txt > div > p:nth-of-type(1) > span:nth-of-type(3)") # print("北京市自如數(shù)據(jù)如下") fhandle.write("北京市"+time.strftime("%Y-%m-%d %H:%M:%S", time.localtime()) + "自如數(shù)據(jù)如下"+" ") for title, price, area, floor, room, distance in zip(title, price, area, floor, room, distance): last_data = { "名稱": title.get_text().strip(), # "地段": place.get_text().strip(), "距離": distance.get_text().strip(), "價格": price.get_text().replace(" ", "").replace(" ", ""), "面積": area.get_text().strip(), "樓層": floor.get_text().strip(), "房間大小": room.get_text().strip() } fhandle.write("名稱:"+title.get_text().strip()) # fhandle.write("地段:"+place.get_text().strip()) fhandle.write("距離:"+distance.get_text().strip()) fhandle.write( "價格:"+price.get_text().replace(" ", "").replace(" ", "")) fhandle.write("面積:"+area.get_text().strip()) fhandle.write("樓層:"+floor.get_text().strip()) fhandle.write("房間大?。?+room.get_text().strip() + " ") # print json.dumps(last_data).decode("unicode-escape") # print json.dumps(last_data,ensure_ascii=False) print json.dumps(last_data, encoding="UTF-8", ensure_ascii=False) fhandle.write("************************************************"+" ") fhandle.close() print(time.strftime("%Y-%m-%d %H:%M:%S", time.localtime())) pass3.其他部分
因為爬取可用的ip組成ip池,是一個比較耗時的過程,所以加入了圖像化的等待顯示,詳見 代碼 process.py
自動化爬取要有點節(jié)操,所以得加入延時,詳見 代碼 ziru_room.py
while(True): computedData(usefulIp, userAgent) time.sleep(60)
python 一點其他感觸,寫起來很簡潔,這個換行縮進還有dict對象中文Unicode搞了很久。。。目前和node相比優(yōu)缺點在哪里還沒有分析好,可以留言探討下。
碼字辛苦,代碼粗糙后續(xù)會有優(yōu)化,點小手star一下謝謝
https://github.com/liangyuqi/...
最后送上彩蛋,這位老哥最后根據(jù)github 里qq 找到的我,反反爬蟲不算太失敗吧,爬取的也不是什么關鍵數(shù)據(jù),手動滑稽,僅供萌新學習練手
文章版權歸作者所有,未經(jīng)允許請勿轉載,若此文章存在違規(guī)行為,您可以聯(lián)系管理員刪除。
轉載請注明本文地址:http://systransis.cn/yun/43116.html
摘要:在這之前,還是有必要對一些概念超輕量級反爬蟲方案后端掘金前言爬蟲和反爬蟲日益成為每家公司的標配系統(tǒng)。 爬蟲修煉之道——從網(wǎng)頁中提取結構化數(shù)據(jù)并保存(以爬取糗百文本板塊所有糗事為例) - 后端 - 掘金歡迎大家關注我的專題:爬蟲修煉之道 上篇 爬蟲修煉之道——編寫一個爬取多頁面的網(wǎng)絡爬蟲主要講解了如何使用python編寫一個可以下載多頁面的爬蟲,如何將相對URL轉為絕對URL,如何限速,...
摘要:時間永遠都過得那么快,一晃從年注冊,到現(xiàn)在已經(jīng)過去了年那些被我藏在收藏夾吃灰的文章,已經(jīng)太多了,是時候把他們整理一下了。那是因為收藏夾太亂,橡皮擦給設置私密了,不收拾不好看呀。 ...
摘要:學習筆記七數(shù)學形態(tài)學關注的是圖像中的形狀,它提供了一些方法用于檢測形狀和改變形狀。學習筆記十一尺度不變特征變換,簡稱是圖像局部特征提取的現(xiàn)代方法基于區(qū)域圖像塊的分析。本文的目的是簡明扼要地說明的編碼機制,并給出一些建議。 showImg(https://segmentfault.com/img/bVRJbz?w=900&h=385); 前言 開始之前,我們先來看這樣一個提問: pyth...
摘要:圖意淫爬蟲與反爬蟲間的對決數(shù)據(jù)的重要性如今已然是大數(shù)據(jù)時代,數(shù)據(jù)正在驅動著業(yè)務開發(fā),驅動著運營手段,有了數(shù)據(jù)的支撐可以對用戶進行用戶畫像,個性化定制,數(shù)據(jù)可以指明方案設計和決策優(yōu)化方向,所以互聯(lián)網(wǎng)產(chǎn)品的開發(fā)都是離不開對數(shù)據(jù)的收集和分析,數(shù) showImg(https://segmentfault.com/img/remote/1460000013428119?w=539&h=337)...
閱讀 2979·2021-11-23 10:12
閱讀 2704·2021-11-23 09:51
閱讀 2051·2021-11-15 11:37
閱讀 1390·2019-08-30 15:55
閱讀 1974·2019-08-29 15:40
閱讀 1176·2019-08-28 18:30
閱讀 1657·2019-08-28 18:02
閱讀 2652·2019-08-26 12:00