摘要:最近在研究爬蟲這方面的庫(kù)也不少但大多都用不順手今天在上搜索時(shí)發(fā)現(xiàn)了這個(gè)框架其用法很簡(jiǎn)單和操作幾乎一樣剛使用了下感覺很好用框架也不大不算文檔多安裝也很方便所以就分享給大家地址下載后運(yùn)行使用列子網(wǎng)頁(yè)標(biāo)題我的主頁(yè)測(cè)試段落一測(cè)試段落二測(cè)試段落
最近在研究python爬蟲,這方面的庫(kù)也不少,但大多都用不順手.
今天在github上搜索時(shí)發(fā)現(xiàn)了這個(gè)框架,其用法很簡(jiǎn)單,和javascript操作DOM幾乎一樣,剛使用了下,感覺很好用,框架也不大,不算文檔70多k,安裝也很方便.所以就分享給大家.
地址:https://github.com/kata198/AdvancedHTMLParser
下載后,運(yùn)行 python setup.py install
使用列子
#coding=utf-8 import AdvancedHTMLParser ht = """網(wǎng)頁(yè)標(biāo)題 div#testid測(cè)試段落一
測(cè)試段落二
測(cè)試段落三
測(cè)試段落四
""" parser = AdvancedHTMLParser.AdvancedHTMLParser() parser.parseStr(ht.decode("gbk").encode("utf-8")) #我在windows下寫的,所以這里轉(zhuǎn)換了編碼 #網(wǎng)頁(yè)編碼 print parser.encoding #根據(jù)標(biāo)簽名獲取元素 items = parser.getElementsByTagName("p") for item in items: print item.innerHTML #根據(jù)類名獲取 items = parser.getElementsByClassName("link") #獲取a連接的文本和鏈接 print items[0].getElementsByClassName("sf")[0].innerHTML print items[0].getElementsByClassName("sf")[0].getAttribute("href") #根據(jù)id獲取 print parser.getElementById("testid").innerHTML
輸出如下:
utf-8
測(cè)試段落一
測(cè)試段落二
測(cè)試段落三
測(cè)試段落四
Segmentfault
http://segmentfault.com/
div#testid
是不是很方便呢.
本文同步發(fā)表在CSDN,轉(zhuǎn)載請(qǐng)注明作者!
文章版權(quán)歸作者所有,未經(jīng)允許請(qǐng)勿轉(zhuǎn)載,若此文章存在違規(guī)行為,您可以聯(lián)系管理員刪除。
轉(zhuǎn)載請(qǐng)注明本文地址:http://systransis.cn/yun/49644.html
摘要:最近在研究爬蟲這方面的庫(kù)也不少但大多都用不順手今天在上搜索時(shí)發(fā)現(xiàn)了這個(gè)框架其用法很簡(jiǎn)單和操作幾乎一樣剛使用了下感覺很好用框架也不大不算文檔多安裝也很方便所以就分享給大家地址下載后運(yùn)行使用列子網(wǎng)頁(yè)標(biāo)題我的主頁(yè)測(cè)試段落一測(cè)試段落二測(cè)試段落 最近在研究python爬蟲,這方面的庫(kù)也不少,但大多都用不順手.今天在github上搜索時(shí)發(fā)現(xiàn)了這個(gè)框架,其用法很簡(jiǎn)單,和javascript操作DOM...
摘要:資源獲取方式根據(jù)下面的索引,大家可以選擇自己需要的資源,然后在松哥公眾號(hào)牧碼小子后臺(tái)回復(fù)對(duì)應(yīng)的口令,就可以獲取到資源的百度云盤下載地址。公眾號(hào)二維碼如下另外本文會(huì)定期更新,松哥有新資源的時(shí)候會(huì)及時(shí)分享給大家,歡迎各位小伙伴保持關(guān)注。 沒有一條路是容易的,特別是轉(zhuǎn)行計(jì)算機(jī)這條路。 松哥接觸過很多轉(zhuǎn)行做開發(fā)的小伙伴,我了解到很多轉(zhuǎn)行人的不容易,記得松哥大二時(shí)剛剛決定轉(zhuǎn)行計(jì)算機(jī),完全不知道這...
摘要:下載器下載器負(fù)責(zé)獲取頁(yè)面數(shù)據(jù)并提供給引擎,而后提供給。下載器中間件下載器中間件是在引擎及下載器之間的特定鉤子,處理傳遞給引擎的。一旦頁(yè)面下載完畢,下載器生成一個(gè)該頁(yè)面的,并將其通過下載中間件返回方向發(fā)送給引擎。 作者:xiaoyu微信公眾號(hào):Python數(shù)據(jù)科學(xué)知乎:Python數(shù)據(jù)分析師 在爬蟲的路上,學(xué)習(xí)scrapy是一個(gè)必不可少的環(huán)節(jié)。也許有好多朋友此時(shí)此刻也正在接觸并學(xué)習(xí)sc...
摘要:以下這些項(xiàng)目,你拿來學(xué)習(xí)學(xué)習(xí)練練手。當(dāng)你每個(gè)步驟都能做到很優(yōu)秀的時(shí)候,你應(yīng)該考慮如何組合這四個(gè)步驟,使你的爬蟲達(dá)到效率最高,也就是所謂的爬蟲策略問題,爬蟲策略學(xué)習(xí)不是一朝一夕的事情,建議多看看一些比較優(yōu)秀的爬蟲的設(shè)計(jì)方案,比如說。 (一)如何學(xué)習(xí)Python 學(xué)習(xí)Python大致可以分為以下幾個(gè)階段: 1.剛上手的時(shí)候肯定是先過一遍Python最基本的知識(shí),比如說:變量、數(shù)據(jù)結(jié)構(gòu)、語法...
閱讀 3061·2023-04-26 02:27
閱讀 2773·2021-11-22 13:54
閱讀 911·2021-11-12 10:36
閱讀 3765·2021-10-09 09:44
閱讀 3188·2021-10-09 09:41
閱讀 1235·2021-09-22 10:02
閱讀 2845·2019-08-30 15:56
閱讀 3112·2019-08-30 11:02