分享一個(gè)解析html的python的框架--AdvancedHTMLParser

lvzishen 發(fā)布于2019-08-01 14:53 / 1973人閱讀

摘要：最近在研究爬蟲這方面的庫(kù)也不少但大多都用不順手今天在上搜索時(shí)發(fā)現(xiàn)了這個(gè)框架其用法很簡(jiǎn)單和操作幾乎一樣剛使用了下感覺很好用框架也不大不算文檔多安裝也很方便所以就分享給大家地址下載后運(yùn)行使用列子網(wǎng)頁(yè)標(biāo)題我的主頁(yè)測(cè)試段落一測(cè)試段落二測(cè)試段落

最近在研究python爬蟲,這方面的庫(kù)也不少,但大多都用不順手.
今天在github上搜索時(shí)發(fā)現(xiàn)了這個(gè)框架,其用法很簡(jiǎn)單,和javascript操作DOM幾乎一樣,剛使用了下,感覺很好用,框架也不大,不算文檔70多k,安裝也很方便.所以就分享給大家.
地址:https://github.com/kata198/AdvancedHTMLParser
下載后,運(yùn)行 python setup.py install
使用列子

#coding=utf-8
import AdvancedHTMLParser
ht = """




網(wǎng)頁(yè)標(biāo)題



    Segmentfault

    我的主頁(yè)

div#testid
測(cè)試段落一
測(cè)試段落二
測(cè)試段落三
測(cè)試段落四


"""
parser = AdvancedHTMLParser.AdvancedHTMLParser()
parser.parseStr(ht.decode("gbk").encode("utf-8"))
#我在windows下寫的,所以這里轉(zhuǎn)換了編碼
#網(wǎng)頁(yè)編碼
print parser.encoding
#根據(jù)標(biāo)簽名獲取元素
items = parser.getElementsByTagName("p")
for item in items:
    print item.innerHTML
#根據(jù)類名獲取
items = parser.getElementsByClassName("link")
#獲取a連接的文本和鏈接
print items[0].getElementsByClassName("sf")[0].innerHTML
print items[0].getElementsByClassName("sf")[0].getAttribute("href")
#根據(jù)id獲取
print parser.getElementById("testid").innerHTML

輸出如下:
utf-8
測(cè)試段落一
測(cè)試段落二
測(cè)試段落三
測(cè)試段落四
Segmentfault
http://segmentfault.com/
div#testid

是不是很方便呢.
本文同步發(fā)表在CSDN,轉(zhuǎn)載請(qǐng)注明作者!

GPU云服務(wù)器云服務(wù)器分享的html html的框架 html框架的實(shí)例 html框架內(nèi)的鏈接

文章版權(quán)歸作者所有，未經(jīng)允許請(qǐng)勿轉(zhuǎn)載,若此文章存在違規(guī)行為，您可以聯(lián)系管理員刪除。

轉(zhuǎn)載請(qǐng)注明本文地址：http://systransis.cn/yun/49644.html

發(fā)表評(píng)論

登陸后可評(píng)論

0條評(píng)論

lvzishen

男|高級(jí)講師

我要關(guān)注我要私信

TA的文章

tensorflow

閱讀 3061·2023-04-26 02:27
怎樣進(jìn)行短信群發(fā)？短信群發(fā)效果差的原因有哪些？

閱讀 2773·2021-11-22 13:54
leetcode每日一題-7:整數(shù)反轉(zhuǎn)

閱讀 911·2021-11-12 10:36
程序員的算法趣題Q48: 翻轉(zhuǎn)得到交錯(cuò)排列

閱讀 3765·2021-10-09 09:44
基于SSM童年零食銷售管理網(wǎng)站

閱讀 3188·2021-10-09 09:41
Python爬蟲：給我一個(gè)鏈接，虎牙視頻隨便下載

閱讀 1235·2021-09-22 10:02
燈箱效果如何實(shí)現(xiàn) - W3Schools視頻06

閱讀 2845·2019-08-30 15:56
漫畫：如何向女朋友解釋前端

閱讀 3112·2019-08-30 11:02

成人国产在线小视频_日韩寡妇人妻调教在线播放_色成人www永久在线观看_2018国产精品久久_亚洲欧美高清在线30p_亚洲少妇综合一区_黄色在线播放国产_亚洲另类技巧小说校园_国产主播xx日韩_a级毛片在线免费

資訊專欄INFORMATION COLUMN

上云采購(gòu)季！| 2核2G4M爆款云服務(wù)器低至59元/年，更有多臺(tái)、長(zhǎng)期優(yōu)惠，快來選購(gòu)！

分享一個(gè)解析html的python的框架--AdvancedHTMLParser

相關(guān)文章