python抓取簡(jiǎn)單網(wǎng)頁(yè)數(shù)據(jù)的小實(shí)例

Rainie 發(fā)布于2019-07-24 17:55 / 1994人閱讀

摘要：抓取網(wǎng)頁(yè)數(shù)據(jù)的思路有好多種，一般有直接代碼請(qǐng)求模擬瀏覽器請(qǐng)求數(shù)據(jù)通常需要登錄驗(yàn)證控制瀏覽器實(shí)現(xiàn)數(shù)據(jù)抓取等。這篇不考慮復(fù)雜情況，放一個(gè)讀取簡(jiǎn)單網(wǎng)頁(yè)數(shù)據(jù)的小例子目標(biāo)數(shù)據(jù)將網(wǎng)站上這個(gè)頁(yè)面上所有這些選手的超鏈接保存下來(lái)。

抓取網(wǎng)頁(yè)數(shù)據(jù)的思路有好多種，一般有：直接代碼請(qǐng)求http、模擬瀏覽器請(qǐng)求數(shù)據(jù)（通常需要登錄驗(yàn)證）、控制瀏覽器實(shí)現(xiàn)數(shù)據(jù)抓取等。這篇不考慮復(fù)雜情況，放一個(gè)讀取簡(jiǎn)單網(wǎng)頁(yè)數(shù)據(jù)的小例子：

目標(biāo)數(shù)據(jù)

將ittf網(wǎng)站上這個(gè)頁(yè)面上所有這些選手的超鏈接保存下來(lái)。

數(shù)據(jù)請(qǐng)求

真的很喜歡符合人類(lèi)思維的庫(kù)，比如requests，如果是要直接拿網(wǎng)頁(yè)文本，一句話(huà)搞定：

doc = requests.get(url).text

解析html獲得數(shù)據(jù)

以beautifulsoup為例，包含獲取標(biāo)簽、鏈接，以及根據(jù)html層次結(jié)構(gòu)遍歷等方法。參考見(jiàn)這里。下面這個(gè)片段，從ittf網(wǎng)站上獲取指定頁(yè)面上指定位置的鏈接。

url = "http://www.ittf.com/ittf_ranking/WR_Table_3_A2.asp?Age_category_1=&Age_category_2=&Age_category_3=&Age_category_4=&Age_category_5=&Category=100W&Cont=&Country=&Gender=W&Month1=4&Year1=2015&s_Player_Name=&Formv_WR_Table_3_Page="+str(page)
doc = requests.get(url).text
soup = BeautifulSoup(doc)
atags = soup.find_all("a")
rank_link_pre = "http://www.ittf.com/ittf_ranking/"

mlfile = open(linkfile,"a")
for atag in atags:
    #print atag
    if atag!=None and atag.get("href") != None:
        if "WR_Table_3_A2_Details.asp" in atag["href"]:
            link = rank_link_pre + atag["href"]
            links.append(link)
            mlfile.write(link+"
")
            print "fetch link: "+link
mlfile.close()

GPU云服務(wù)器云服務(wù)器 python抓取網(wǎng)頁(yè)數(shù)據(jù) python網(wǎng)頁(yè)抓取 python簡(jiǎn)單抓取 python簡(jiǎn)單實(shí)例

文章版權(quán)歸作者所有，未經(jīng)允許請(qǐng)勿轉(zhuǎn)載,若此文章存在違規(guī)行為，您可以聯(lián)系管理員刪除。

轉(zhuǎn)載請(qǐng)注明本文地址：http://systransis.cn/yun/37492.html

發(fā)表評(píng)論

登陸后可評(píng)論

0條評(píng)論

Rainie

男|高級(jí)講師

我要關(guān)注我要私信

TA的文章

pandas使用pct_change計(jì)算數(shù)據(jù)列的百分比變化、環(huán)比變化率：計(jì)算當(dāng)前元素和前一個(gè)元素之間

閱讀 3546·2021-11-18 10:02
css 各單位距離比較

閱讀 3115·2019-08-29 18:34
前端每日實(shí)戰(zhàn)：157# 視頻演示如何用純 CSS 創(chuàng)作一個(gè)棋盤(pán)錯(cuò)覺(jué)動(dòng)畫(huà)

閱讀 3404·2019-08-29 17:00
css-reset 代碼

閱讀 434·2019-08-29 12:35
(css/js)如何起個(gè)好名字

閱讀 761·2019-08-28 18:22
為什么在頁(yè)面上操作幾次之后就變得奇慢無(wú)比，接口長(zhǎng)時(shí)間處于pending狀態(tài)？

閱讀 1941·2019-08-26 13:58
逐行解析Axios源碼

閱讀 1675·2019-08-26 10:39
h5喚醒APP

閱讀 2682·2019-08-26 10:11

成人国产在线小视频_日韩寡妇人妻调教在线播放_色成人www永久在线观看_2018国产精品久久_亚洲欧美高清在线30p_亚洲少妇综合一区_黄色在线播放国产_亚洲另类技巧小说校园_国产主播xx日韩_a级毛片在线免费

資訊專(zhuān)欄INFORMATION COLUMN

上云采購(gòu)季！| 2核2G4M爆款云服務(wù)器低至59元/年，更有多臺(tái)、長(zhǎng)期優(yōu)惠，快來(lái)選購(gòu)！

python抓取簡(jiǎn)單網(wǎng)頁(yè)數(shù)據(jù)的小實(shí)例

相關(guān)文章

**如何用Python抓抖音上的小姐姐**

文章內(nèi)容提取庫(kù) goose 簡(jiǎn)介

Python3網(wǎng)絡(luò)爬蟲(chóng)實(shí)戰(zhàn)---24、requests：基本使用

一鍵下載：將知乎專(zhuān)欄導(dǎo)出成電子書(shū)

發(fā)表評(píng)論

0條評(píng)論

Rainie

男|高級(jí)講師

TA的文章

pandas使用pct_change計(jì)算數(shù)據(jù)列的百分比變化、環(huán)比變化率：計(jì)算當(dāng)前元素和前一個(gè)元素之間

css 各單位距離比較

前端每日實(shí)戰(zhàn)：157# 視頻演示如何用純 CSS 創(chuàng)作一個(gè)棋盤(pán)錯(cuò)覺(jué)動(dòng)畫(huà)

css-reset 代碼

(css/js)如何起個(gè)好名字

為什么在頁(yè)面上操作幾次之后就變得奇慢無(wú)比，接口長(zhǎng)時(shí)間處于pending狀態(tài)？

逐行解析Axios源碼

h5喚醒APP

最新活動(dòng)

資訊專(zhuān)欄INFORMATION COLUMN

上云采購(gòu)季！| 2核2G4M爆款云服務(wù)器低至59元/年，更有多臺(tái)、長(zhǎng)期優(yōu)惠，快來(lái)選購(gòu)！

python抓取簡(jiǎn)單網(wǎng)頁(yè)數(shù)據(jù)的小實(shí)例

相關(guān)文章

發(fā)表評(píng)論

0條評(píng)論

男|高級(jí)講師

TA的文章

最新活動(dòng)

上云采購(gòu)季！| 2核2G4M爆款云服務(wù)器低至59元/年，更有多臺(tái)、長(zhǎng)期優(yōu)惠，快來(lái)選購(gòu)！