成人国产在线小视频_日韩寡妇人妻调教在线播放_色成人www永久在线观看_2018国产精品久久_亚洲欧美高清在线30p_亚洲少妇综合一区_黄色在线播放国产_亚洲另类技巧小说校园_国产主播xx日韩_a级毛片在线免费

資訊專欄INFORMATION COLUMN

分享一個(gè)解析html的python的框架--AdvancedHTMLParser

lvzishen / 1973人閱讀

摘要:最近在研究爬蟲這方面的庫(kù)也不少但大多都用不順手今天在上搜索時(shí)發(fā)現(xiàn)了這個(gè)框架其用法很簡(jiǎn)單和操作幾乎一樣剛使用了下感覺很好用框架也不大不算文檔多安裝也很方便所以就分享給大家地址下載后運(yùn)行使用列子網(wǎng)頁(yè)標(biāo)題我的主頁(yè)測(cè)試段落一測(cè)試段落二測(cè)試段落

最近在研究python爬蟲,這方面的庫(kù)也不少,但大多都用不順手.
今天在github上搜索時(shí)發(fā)現(xiàn)了這個(gè)框架,其用法很簡(jiǎn)單,和javascript操作DOM幾乎一樣,剛使用了下,感覺很好用,框架也不大,不算文檔70多k,安裝也很方便.所以就分享給大家.
地址:https://github.com/kata198/AdvancedHTMLParser
下載后,運(yùn)行 python setup.py install
使用列子

#coding=utf-8
import AdvancedHTMLParser
ht = """




�(wǎng)�(yè)�(biāo)�



div#testid

�(cè)試段落一

�(cè)試段落二

�(cè)試段落三

�(cè)試段落四

""" parser = AdvancedHTMLParser.AdvancedHTMLParser() parser.parseStr(ht.decode("gbk").encode("utf-8")) #我在windows下寫�,所以這里�(zhuǎn)換了編碼 #�(wǎng)�(yè)編碼 print parser.encoding #根據(jù)�(biāo)簽名獲取元素 items = parser.getElementsByTagName("p") for item in items: print item.innerHTML #根據(jù)類名獲取 items = parser.getElementsByClassName("link") #獲取a連接的文本和鏈接 print items[0].getElementsByClassName("sf")[0].innerHTML print items[0].getElementsByClassName("sf")[0].getAttribute("href") #根據(jù)id獲取 print parser.getElementById("testid").innerHTML

輸出如下:
utf-8
�(cè)試段落一
�(cè)試段落二
�(cè)試段落三
�(cè)試段落四
Segmentfault
http://segmentfault.com/
div#testid

是不是很方便�.
本文同步�(fā)表在CSDN,�(zhuǎn)載請(qǐng)注明作�!

文章版權(quán)歸作者所�,未�(jīng)允許�(qǐng)勿轉(zhuǎn)�,若此文章存在違規(guī)行為,您可以�(lián)系管理員刪除�

�(zhuǎn)載請(qǐng)注明本文地址:http://systransis.cn/yun/49644.html

相關(guān)文章

  • 分享一�(gè)解析htmlpython框架--AdvancedHTMLParser

    摘要:最近在研究爬蟲這方面的�(kù)也不少但大多都用不順手今天在上搜索時(shí)�(fā)�(xiàn)了這�(gè)框架其用法很�(jiǎn)單和操作幾乎一樣剛使用了下感覺很好用框架也不大不算文檔多安裝也很方便所以就分享給大家地址下載后運(yùn)行使用列子網(wǎng)�(yè)�(biāo)題我的主�(yè)�(cè)試段落一�(cè)試段落二�(cè)試段� 最近在研究python爬蟲,這方面的�(kù)也不�,但大多都用不順手.今天在github上搜索時(shí)�(fā)�(xiàn)了這�(gè)框架,其用法很�(jiǎn)�,和javascript操作DOM...

    widuu �(píng)� 收藏0
  • 做IT這幾�,我整理了這些干貨想要送給�!

    摘要:資源獲取方式根�(jù)下面的索�,大家可以選擇自己需要的資源,然后在松哥公眾�(hào)牧碼小子后臺(tái)回復(fù)�(duì)�(yīng)的口�,就可以獲取到資源的百度云盤下載地址。公眾號(hào)二維碼如下另外本文會(huì)定期更新,松哥有新資源的�(shí)候會(huì)及時(shí)分享給大家,歡迎各位小伙伴保持關(guān)�� 沒有一條路是容易的,特別是�(zhuǎn)行計(jì)算機(jī)這條路� 松哥接觸過很多轉(zhuǎn)行做開發(fā)的小伙伴,我了解到很多轉(zhuǎn)行人的不容易,記得松哥大二時(shí)剛剛決定�(zhuǎn)行計(jì)算機(jī),完全不知道�...

    王晗 �(píng)� 收藏0
  • Python爬蟲之Scrapy�(xué)�(xí)(基�(chǔ)篇)

    摘要:下載器下載器負(fù)�(zé)獲取�(yè)面數(shù)�(jù)并提供給引擎,而后提供給。下載器中間件下載器中間件是在引擎及下載器之間的特定鉤子,處理傳遞給引擎�。一旦頁(yè)面下載完�,下載器生成一�(gè)該頁(yè)面的,并將其通過下載中間件返回方向發(fā)送給引擎� 作者:xiaoyu微信公眾�(hào):Python�(shù)�(jù)科學(xué)知乎:Python�(shù)�(jù)分析� 在爬蟲的路上,學(xué)�(xí)scrapy是一�(gè)必不可少的環(huán)節(jié)。也許有好多朋友此時(shí)此刻也正在接觸并�(xué)�(xí)sc...

    pkhope �(píng)� 收藏0
  • Python爬蟲�(xué)�(xí)路線

    摘要:以下這些�(xiàng)�,你拿來�(xué)�(xí)�(xué)�(xí)練練手。當(dāng)你每�(gè)步驟都能做到很優(yōu)秀的時(shí)�,你�(yīng)該考慮如何組合這四�(gè)步驟,使你的爬蟲�(dá)到效率最�,也就是所謂的爬蟲策略問題,爬蟲策略學(xué)�(xí)不是一朝一夕的事情,建議多看看一些比較優(yōu)秀的爬蟲的�(shè)�(jì)方案,比如說� (一)如何學(xué)�(xí)Python �(xué)�(xí)Python大致可以分為以下幾�(gè)階段� 1.剛上手的�(shí)候肯定是先過一遍Python最基本的知�(shí),比如說:變�、數(shù)�(jù)�(jié)�(gòu)、語�...

    liaoyg8023 �(píng)� 收藏0

�(fā)表評(píng)�

0條評(píng)�

最新活�(dòng)
閱讀需要支�1元查�
<