成人国产在线小视频_日韩寡妇人妻调教在线播放_色成人www永久在线观看_2018国产精品久久_亚洲欧美高清在线30p_亚洲少妇综合一区_黄色在线播放国产_亚洲另类技巧小说校园_国产主播xx日韩_a级毛片在线免费

資訊專(zhuān)欄INFORMATION COLUMN

python抓取簡(jiǎn)單網(wǎng)頁(yè)數(shù)據(jù)的小實(shí)例

Rainie / 1994人閱讀

摘要:抓取網(wǎng)頁(yè)數(shù)據(jù)的思路有好多種,一般有直接代碼請(qǐng)求模擬瀏覽器請(qǐng)求數(shù)據(jù)通常需要登錄驗(yàn)證控制瀏覽器實(shí)現(xiàn)數(shù)據(jù)抓取等。這篇不考慮復(fù)雜情況,放一個(gè)讀取簡(jiǎn)單網(wǎng)頁(yè)數(shù)據(jù)的小例子目標(biāo)數(shù)據(jù)將網(wǎng)站上這個(gè)頁(yè)面上所有這些選手的超鏈接保存下來(lái)。

抓取網(wǎng)頁(yè)數(shù)據(jù)的思路有好多種,一般有:直接代碼請(qǐng)求http、模擬瀏覽器請(qǐng)求數(shù)據(jù)(通常需要登錄驗(yàn)證)、控制瀏覽器實(shí)現(xiàn)數(shù)據(jù)抓取等。這篇不考慮復(fù)雜情況,放一個(gè)讀取簡(jiǎn)單網(wǎng)頁(yè)數(shù)據(jù)的小例子:

目標(biāo)數(shù)據(jù)

將ittf網(wǎng)站上這個(gè)頁(yè)面上所有這些選手的超鏈接保存下來(lái)。

數(shù)據(jù)請(qǐng)求

真的很喜歡符合人類(lèi)思維的庫(kù),比如requests,如果是要直接拿網(wǎng)頁(yè)文本,一句話(huà)搞定:

doc = requests.get(url).text
解析html獲得數(shù)據(jù)

以beautifulsoup為例,包含獲取標(biāo)簽、鏈接,以及根據(jù)html層次結(jié)構(gòu)遍歷等方法。參考見(jiàn)這里。下面這個(gè)片段,從ittf網(wǎng)站上獲取指定頁(yè)面上指定位置的鏈接。

url = "http://www.ittf.com/ittf_ranking/WR_Table_3_A2.asp?Age_category_1=&Age_category_2=&Age_category_3=&Age_category_4=&Age_category_5=&Category=100W&Cont=&Country=&Gender=W&Month1=4&Year1=2015&s_Player_Name=&Formv_WR_Table_3_Page="+str(page)
doc = requests.get(url).text
soup = BeautifulSoup(doc)
atags = soup.find_all("a")
rank_link_pre = "http://www.ittf.com/ittf_ranking/"

mlfile = open(linkfile,"a")
for atag in atags:
    #print atag
    if atag!=None and atag.get("href") != None:
        if "WR_Table_3_A2_Details.asp" in atag["href"]:
            link = rank_link_pre + atag["href"]
            links.append(link)
            mlfile.write(link+"
")
            print "fetch link: "+link
mlfile.close()

文章版權(quán)歸作者所有,未經(jīng)允許請(qǐng)勿轉(zhuǎn)載,若此文章存在違規(guī)行為,您可以聯(lián)系管理員刪除。

轉(zhuǎn)載請(qǐng)注明本文地址:http://systransis.cn/yun/37492.html

相關(guān)文章

  • 如何用Python抓抖音上的小姐姐

    摘要:比如分鐘破譯朋友圈測(cè)試小游戲文章里用的方法但有些根本就沒(méi)有提供網(wǎng)頁(yè)端,比如今年火得不行的抖音。所以常用的方式就是通過(guò)在電腦上裝一些抓包軟件,將手機(jī)上的網(wǎng)絡(luò)請(qǐng)求全部顯示出來(lái)??偨Y(jié)下,重點(diǎn)是的抓取,關(guān)鍵是配置代理證書(shū),難點(diǎn)是對(duì)請(qǐng)求的分析。 爬蟲(chóng)的案例我們已講得太多。不過(guò)幾乎都是 網(wǎng)頁(yè)爬蟲(chóng) 。即使有些手機(jī)才能訪(fǎng)問(wèn)的網(wǎng)站,我們也可以通過(guò) Chrome 開(kāi)發(fā)者工具 的 手機(jī)模擬 功能來(lái)訪(fǎng)問(wèn),以便...

    FingerLiu 評(píng)論0 收藏0
  • 文章內(nèi)容提取庫(kù) goose 簡(jiǎn)介

    摘要:是一個(gè)文章內(nèi)容提取器,可以從任意資訊文章類(lèi)的網(wǎng)頁(yè)中提取文章主體,并提取標(biāo)題標(biāo)簽摘要圖片視頻等信息,且支持中文網(wǎng)頁(yè)。 爬蟲(chóng)抓取數(shù)據(jù)有兩個(gè)頭疼的點(diǎn),寫(xiě)過(guò)爬蟲(chóng)的小伙伴們一定都深有體會(huì): 網(wǎng)站的 防抓取 機(jī)制。你要盡可能將自己偽裝成一個(gè)人,騙過(guò)對(duì)方的服務(wù)器反爬驗(yàn)證。 網(wǎng)站的 內(nèi)容提取 。每個(gè)網(wǎng)站都需要你做不同的處理,而且網(wǎng)站一旦改版,你的代碼也得跟著更新。 第一點(diǎn)沒(méi)什么捷徑可走,套路見(jiàn)得多...

    keithxiaoy 評(píng)論0 收藏0
  • Python3網(wǎng)絡(luò)爬蟲(chóng)實(shí)戰(zhàn)---24、requests:基本使用

    摘要:上一篇文章網(wǎng)絡(luò)爬蟲(chóng)實(shí)戰(zhàn)使用分析協(xié)議下一篇文章在前面一節(jié)我們了解了的基本用法,但是其中確實(shí)有不方便的地方。發(fā)送之后,得到的自然就是,在上面的實(shí)例中我們使用了和獲取了內(nèi)容,不過(guò)還有很多屬性和方法可以獲取其他的信息,比如狀態(tài)碼等信息。 上一篇文章:Python3網(wǎng)絡(luò)爬蟲(chóng)實(shí)戰(zhàn)---23、使用Urllib:分析Robots協(xié)議下一篇文章: 在前面一節(jié)我們了解了 Urllib 的基本用法,但是其中...

    lentrue 評(píng)論0 收藏0
  • 一鍵下載:將知乎專(zhuān)欄導(dǎo)出成電子書(shū)

    摘要:在知乎上,你一定關(guān)注了一些不錯(cuò)的專(zhuān)欄比如的編程教室。有需要的請(qǐng)?jiān)诠娞?hào)里回復(fù)爬蟲(chóng)實(shí)戰(zhàn)源碼下載獲取知乎專(zhuān)欄下載器源碼,請(qǐng)?jiān)诠娞?hào)的編程教室里回復(fù)關(guān)鍵字知乎除了代碼外,本專(zhuān)欄打包好的也一并奉上,歡迎閱讀與分享。 老是有同學(xué)問(wèn),學(xué)了 Python 基礎(chǔ)后不知道可以做點(diǎn)什么來(lái)提高。今天就再用個(gè)小例子,給大家講講,通過(guò) Python 和 爬蟲(chóng) ,可以完成怎樣的小工具。 在知乎上,你一定關(guān)注了...

    ivyzhang 評(píng)論0 收藏0

發(fā)表評(píng)論

0條評(píng)論

最新活動(dòng)
閱讀需要支付1元查看
<