摘要:最近在研究爬蟲這方面的庫(kù)也不少但大多都用不順手今天在上搜索時(shí)發(fā)現(xiàn)了這個(gè)框架其用法很簡(jiǎn)單和操作幾乎一樣剛使用了下感覺很好用框架也不大不算文檔多安裝也很方便所以就分享給大家地址下載后運(yùn)行使用列子網(wǎng)頁(yè)標(biāo)題我的主頁(yè)測(cè)試段落一測(cè)試段落二測(cè)試段落
最近在研究python爬蟲,這方面的庫(kù)也不少,但大多都用不順手.
今天在github上搜索時(shí)發(fā)現(xiàn)了這個(gè)框架,其用法很簡(jiǎn)單,和javascript操作DOM幾乎一樣,剛使用了下,感覺很好用,框架也不大,不算文檔70多k,安裝也很方便.所以就分享給大家.
地址:https://github.com/kata198/AdvancedHTMLParser
下載后,運(yùn)行 python setup.py install
使用列子
#coding=utf-8 import AdvancedHTMLParser ht = """�(wǎng)�(yè)�(biāo)� div#testid�(cè)試段落一
�(cè)試段落二
�(cè)試段落三
�(cè)試段落四
""" parser = AdvancedHTMLParser.AdvancedHTMLParser() parser.parseStr(ht.decode("gbk").encode("utf-8")) #我在windows下寫�,所以這里�(zhuǎn)換了編碼 #�(wǎng)�(yè)編碼 print parser.encoding #根據(jù)�(biāo)簽名獲取元素 items = parser.getElementsByTagName("p") for item in items: print item.innerHTML #根據(jù)類名獲取 items = parser.getElementsByClassName("link") #獲取a連接的文本和鏈接 print items[0].getElementsByClassName("sf")[0].innerHTML print items[0].getElementsByClassName("sf")[0].getAttribute("href") #根據(jù)id獲取 print parser.getElementById("testid").innerHTML
輸出如下:
utf-8
�(cè)試段落一
�(cè)試段落二
�(cè)試段落三
�(cè)試段落四
Segmentfault
http://segmentfault.com/
div#testid
是不是很方便�.
本文同步�(fā)表在CSDN,�(zhuǎn)載請(qǐng)注明作�!
文章版權(quán)歸作者所�,未�(jīng)允許�(qǐng)勿轉(zhuǎn)�,若此文章存在違規(guī)行為,您可以�(lián)系管理員刪除�
�(zhuǎn)載請(qǐng)注明本文地址:http://systransis.cn/yun/49644.html
摘要:最近在研究爬蟲這方面的�(kù)也不少但大多都用不順手今天在上搜索時(shí)�(fā)�(xiàn)了這�(gè)框架其用法很�(jiǎn)單和操作幾乎一樣剛使用了下感覺很好用框架也不大不算文檔多安裝也很方便所以就分享給大家地址下載后運(yùn)行使用列子網(wǎng)�(yè)�(biāo)題我的主�(yè)�(cè)試段落一�(cè)試段落二�(cè)試段� 最近在研究python爬蟲,這方面的�(kù)也不�,但大多都用不順手.今天在github上搜索時(shí)�(fā)�(xiàn)了這�(gè)框架,其用法很�(jiǎn)�,和javascript操作DOM...
摘要:資源獲取方式根�(jù)下面的索�,大家可以選擇自己需要的資源,然后在松哥公眾�(hào)牧碼小子后臺(tái)回復(fù)�(duì)�(yīng)的口�,就可以獲取到資源的百度云盤下載地址。公眾號(hào)二維碼如下另外本文會(huì)定期更新,松哥有新資源的�(shí)候會(huì)及時(shí)分享給大家,歡迎各位小伙伴保持關(guān)�� 沒有一條路是容易的,特別是�(zhuǎn)行計(jì)算機(jī)這條路� 松哥接觸過很多轉(zhuǎn)行做開發(fā)的小伙伴,我了解到很多轉(zhuǎn)行人的不容易,記得松哥大二時(shí)剛剛決定�(zhuǎn)行計(jì)算機(jī),完全不知道�...
摘要:下載器下載器負(fù)�(zé)獲取�(yè)面數(shù)�(jù)并提供給引擎,而后提供給。下載器中間件下載器中間件是在引擎及下載器之間的特定鉤子,處理傳遞給引擎�。一旦頁(yè)面下載完�,下載器生成一�(gè)該頁(yè)面的,并將其通過下載中間件返回方向發(fā)送給引擎� 作者:xiaoyu微信公眾�(hào):Python�(shù)�(jù)科學(xué)知乎:Python�(shù)�(jù)分析� 在爬蟲的路上,學(xué)�(xí)scrapy是一�(gè)必不可少的環(huán)節(jié)。也許有好多朋友此時(shí)此刻也正在接觸并�(xué)�(xí)sc...
摘要:以下這些�(xiàng)�,你拿來�(xué)�(xí)�(xué)�(xí)練練手。當(dāng)你每�(gè)步驟都能做到很優(yōu)秀的時(shí)�,你�(yīng)該考慮如何組合這四�(gè)步驟,使你的爬蟲�(dá)到效率最�,也就是所謂的爬蟲策略問題,爬蟲策略學(xué)�(xí)不是一朝一夕的事情,建議多看看一些比較優(yōu)秀的爬蟲的�(shè)�(jì)方案,比如說� (一)如何學(xué)�(xí)Python �(xué)�(xí)Python大致可以分為以下幾�(gè)階段� 1.剛上手的�(shí)候肯定是先過一遍Python最基本的知�(shí),比如說:變�、數(shù)�(jù)�(jié)�(gòu)、語�...
閱讀 3061·2023-04-26 02:27
閱讀 2773·2021-11-22 13:54
閱讀 911·2021-11-12 10:36
閱讀 3765·2021-10-09 09:44
閱讀 3188·2021-10-09 09:41
閱讀 1235·2021-09-22 10:02
閱讀 2845·2019-08-30 15:56
閱讀 3112·2019-08-30 11:02