摘要:抓取網(wǎng)頁(yè)數(shù)據(jù)的思路有好多種,一般有直接代碼請(qǐng)求模擬瀏覽器請(qǐng)求數(shù)據(jù)通常需要登錄驗(yàn)證控制瀏覽器實(shí)現(xiàn)數(shù)據(jù)抓取等。這篇不考慮復(fù)雜情況,放一個(gè)讀取簡(jiǎn)單網(wǎng)頁(yè)數(shù)據(jù)的小例子目標(biāo)數(shù)據(jù)將網(wǎng)站上這個(gè)頁(yè)面上所有這些選手的超鏈接保存下來(lái)。
抓取網(wǎng)頁(yè)數(shù)據(jù)的思路有好多種,一般有:直接代碼請(qǐng)求http、模擬瀏覽器請(qǐng)求數(shù)據(jù)(通常需要登錄驗(yàn)證)、控制瀏覽器實(shí)現(xiàn)數(shù)據(jù)抓取等。這篇不考慮復(fù)雜情況,放一個(gè)讀取簡(jiǎn)單網(wǎng)頁(yè)數(shù)據(jù)的小例子:
目標(biāo)數(shù)據(jù)將ittf網(wǎng)站上這個(gè)頁(yè)面上所有這些選手的超鏈接保存下來(lái)。
真的很喜歡符合人類(lèi)思維的庫(kù),比如requests,如果是要直接拿網(wǎng)頁(yè)文本,一句話(huà)搞定:
doc = requests.get(url).text解析html獲得數(shù)據(jù)
以beautifulsoup為例,包含獲取標(biāo)簽、鏈接,以及根據(jù)html層次結(jié)構(gòu)遍歷等方法。參考見(jiàn)這里。下面這個(gè)片段,從ittf網(wǎng)站上獲取指定頁(yè)面上指定位置的鏈接。
url = "http://www.ittf.com/ittf_ranking/WR_Table_3_A2.asp?Age_category_1=&Age_category_2=&Age_category_3=&Age_category_4=&Age_category_5=&Category=100W&Cont=&Country=&Gender=W&Month1=4&Year1=2015&s_Player_Name=&Formv_WR_Table_3_Page="+str(page) doc = requests.get(url).text soup = BeautifulSoup(doc) atags = soup.find_all("a") rank_link_pre = "http://www.ittf.com/ittf_ranking/" mlfile = open(linkfile,"a") for atag in atags: #print atag if atag!=None and atag.get("href") != None: if "WR_Table_3_A2_Details.asp" in atag["href"]: link = rank_link_pre + atag["href"] links.append(link) mlfile.write(link+" ") print "fetch link: "+link mlfile.close()
文章版權(quán)歸作者所有,未經(jīng)允許請(qǐng)勿轉(zhuǎn)載,若此文章存在違規(guī)行為,您可以聯(lián)系管理員刪除。
轉(zhuǎn)載請(qǐng)注明本文地址:http://systransis.cn/yun/37492.html
摘要:比如分鐘破譯朋友圈測(cè)試小游戲文章里用的方法但有些根本就沒(méi)有提供網(wǎng)頁(yè)端,比如今年火得不行的抖音。所以常用的方式就是通過(guò)在電腦上裝一些抓包軟件,將手機(jī)上的網(wǎng)絡(luò)請(qǐng)求全部顯示出來(lái)??偨Y(jié)下,重點(diǎn)是的抓取,關(guān)鍵是配置代理證書(shū),難點(diǎn)是對(duì)請(qǐng)求的分析。 爬蟲(chóng)的案例我們已講得太多。不過(guò)幾乎都是 網(wǎng)頁(yè)爬蟲(chóng) 。即使有些手機(jī)才能訪(fǎng)問(wèn)的網(wǎng)站,我們也可以通過(guò) Chrome 開(kāi)發(fā)者工具 的 手機(jī)模擬 功能來(lái)訪(fǎng)問(wèn),以便...
摘要:是一個(gè)文章內(nèi)容提取器,可以從任意資訊文章類(lèi)的網(wǎng)頁(yè)中提取文章主體,并提取標(biāo)題標(biāo)簽摘要圖片視頻等信息,且支持中文網(wǎng)頁(yè)。 爬蟲(chóng)抓取數(shù)據(jù)有兩個(gè)頭疼的點(diǎn),寫(xiě)過(guò)爬蟲(chóng)的小伙伴們一定都深有體會(huì): 網(wǎng)站的 防抓取 機(jī)制。你要盡可能將自己偽裝成一個(gè)人,騙過(guò)對(duì)方的服務(wù)器反爬驗(yàn)證。 網(wǎng)站的 內(nèi)容提取 。每個(gè)網(wǎng)站都需要你做不同的處理,而且網(wǎng)站一旦改版,你的代碼也得跟著更新。 第一點(diǎn)沒(méi)什么捷徑可走,套路見(jiàn)得多...
摘要:上一篇文章網(wǎng)絡(luò)爬蟲(chóng)實(shí)戰(zhàn)使用分析協(xié)議下一篇文章在前面一節(jié)我們了解了的基本用法,但是其中確實(shí)有不方便的地方。發(fā)送之后,得到的自然就是,在上面的實(shí)例中我們使用了和獲取了內(nèi)容,不過(guò)還有很多屬性和方法可以獲取其他的信息,比如狀態(tài)碼等信息。 上一篇文章:Python3網(wǎng)絡(luò)爬蟲(chóng)實(shí)戰(zhàn)---23、使用Urllib:分析Robots協(xié)議下一篇文章: 在前面一節(jié)我們了解了 Urllib 的基本用法,但是其中...
摘要:在知乎上,你一定關(guān)注了一些不錯(cuò)的專(zhuān)欄比如的編程教室。有需要的請(qǐng)?jiān)诠娞?hào)里回復(fù)爬蟲(chóng)實(shí)戰(zhàn)源碼下載獲取知乎專(zhuān)欄下載器源碼,請(qǐng)?jiān)诠娞?hào)的編程教室里回復(fù)關(guān)鍵字知乎除了代碼外,本專(zhuān)欄打包好的也一并奉上,歡迎閱讀與分享。 老是有同學(xué)問(wèn),學(xué)了 Python 基礎(chǔ)后不知道可以做點(diǎn)什么來(lái)提高。今天就再用個(gè)小例子,給大家講講,通過(guò) Python 和 爬蟲(chóng) ,可以完成怎樣的小工具。 在知乎上,你一定關(guān)注了...
閱讀 3546·2021-11-18 10:02
閱讀 3115·2019-08-29 18:34
閱讀 3404·2019-08-29 17:00
閱讀 434·2019-08-29 12:35
閱讀 761·2019-08-28 18:22
閱讀 1941·2019-08-26 13:58
閱讀 1675·2019-08-26 10:39
閱讀 2682·2019-08-26 10:11