成人国产在线小视频_日韩寡妇人妻调教在线播放_色成人www永久在线观看_2018国产精品久久_亚洲欧美高清在线30p_亚洲少妇综合一区_黄色在线播放国产_亚洲另类技巧小说校园_国产主播xx日韩_a级毛片在线免费

資訊專欄INFORMATION COLUMN

15、web爬蟲講解2—urllib庫中使用xpath表達(dá)式—BeautifulSoup基礎(chǔ)

lcodecorex / 3451人閱讀

摘要:百度云搜索搜網(wǎng)盤在中,我們一樣可以使用表達(dá)式進(jìn)行信息提取,此時(shí),你需要首先安裝模塊,然后將網(wǎng)頁數(shù)據(jù)通過下的轉(zhuǎn)化為的形式庫中使用表達(dá)式將獲取到的字符串,轉(zhuǎn)換成樹形結(jié)構(gòu),也就是表達(dá)式可以獲取的格式導(dǎo)入樹形結(jié)構(gòu)轉(zhuǎn)換模塊將獲取到的字符串,

【百度云搜索:http://www.bdyss.cn】 【搜網(wǎng)盤:http://www.swpan.cn】

在urllib中,我們一樣可以使用xpath表達(dá)式進(jìn)行信息提取,此時(shí),你需要首先安裝lxml模塊,然后將網(wǎng)頁數(shù)據(jù)通過lxml下的etree轉(zhuǎn)化為treedata的形式

urllib庫中使用xpath表達(dá)式

etree.HTML()將獲取到的html字符串,轉(zhuǎn)換成樹形結(jié)構(gòu),也就是xpath表達(dá)式可以獲取的格式

#!/usr/bin/env?python
#?-*-?coding:utf8?-*-
import?urllib.request
from?lxml?import?etree??#導(dǎo)入html樹形結(jié)構(gòu)轉(zhuǎn)換模塊

wye?=?urllib.request.urlopen("http://sh.qihoo.com/pc/home").read().decode("utf-8","ignore")
zhuanh?=?etree.HTML(wye)??#將獲取到的html字符串,轉(zhuǎn)換成樹形結(jié)構(gòu),也就是xpath表達(dá)式可以獲取的格式
print(zhuanh)
hqq?=?zhuanh.xpath("/html/head/title/text()")?#通過xpath表達(dá)式獲取標(biāo)題

#注意,xpath表達(dá)式獲取到數(shù)據(jù),有時(shí)候是列表,有時(shí)候不是列表所以要做如下處理
if?str(type(hqq))?==?"":??#判斷獲取到的是否是列表
????print(hqq)
else:
????xh_hqq?=?[i?for?i?in?hqq]???????#如果不是列表,循環(huán)數(shù)據(jù)組合成列表
????print(xh_hqq)

#返回?:["【今日爆點(diǎn)】你的專屬資訊平臺(tái)"]

BeautifulSoup基礎(chǔ)

BeautifulSoup是獲取thml元素的模塊

BeautifulSoup-3.2.1版本

【轉(zhuǎn)載自:http://www.lqkweb.com】

文章版權(quán)歸作者所有,未經(jīng)允許請(qǐng)勿轉(zhuǎn)載,若此文章存在違規(guī)行為,您可以聯(lián)系管理員刪除。

轉(zhuǎn)載請(qǐng)注明本文地址:http://systransis.cn/yun/45066.html

相關(guān)文章

  • Python_爬蟲基礎(chǔ)

    摘要:并不是所有爬蟲都遵守,一般只有大型搜索引擎爬蟲才會(huì)遵守。的端口號(hào)為的端口號(hào)為工作原理網(wǎng)絡(luò)爬蟲抓取過程可以理解為模擬瀏覽器操作的過程。表示服務(wù)器成功接收請(qǐng)求并已完成整個(gè)處理過程。 爬蟲概念 數(shù)據(jù)獲取的方式: 企業(yè)生產(chǎn)的用戶數(shù)據(jù):大型互聯(lián)網(wǎng)公司有海量用戶,所以他們積累數(shù)據(jù)有天然優(yōu)勢。有數(shù)據(jù)意識(shí)的中小型企業(yè),也開始積累的數(shù)據(jù)。 數(shù)據(jù)管理咨詢公司 政府/機(jī)構(gòu)提供的公開數(shù)據(jù) 第三方數(shù)據(jù)平臺(tái)購買...

    ixlei 評(píng)論0 收藏0
  • 精通Python網(wǎng)絡(luò)爬蟲(0):網(wǎng)絡(luò)爬蟲學(xué)習(xí)路線

    摘要:以上是如果你想精通網(wǎng)絡(luò)爬蟲的學(xué)習(xí)研究路線,按照這些步驟學(xué)習(xí)下去,可以讓你的爬蟲技術(shù)得到非常大的提升。 作者:韋瑋 轉(zhuǎn)載請(qǐng)注明出處 隨著大數(shù)據(jù)時(shí)代的到來,人們對(duì)數(shù)據(jù)資源的需求越來越多,而爬蟲是一種很好的自動(dòng)采集數(shù)據(jù)的手段。 那么,如何才能精通Python網(wǎng)絡(luò)爬蟲呢?學(xué)習(xí)Python網(wǎng)絡(luò)爬蟲的路線應(yīng)該如何進(jìn)行呢?在此為大家具體進(jìn)行介紹。 1、選擇一款合適的編程語言 事實(shí)上,Python、P...

    spacewander 評(píng)論0 收藏0
  • 如何使用Python制作網(wǎng)絡(luò)爬蟲

    摘要:在近幾年迅速咋程序界掀起了不小的波瀾,而關(guān)于的第三庫也使廣大程序員趨之若鶩,今天我們就由淺入深的探討一下如何使用做一個(gè)網(wǎng)絡(luò)爬蟲來抓取一些頁面信息。 Python在近幾年迅速咋程序界掀起了不小的波瀾,而關(guān)于python的第三庫也使廣大程序員趨之若鶩,今天我們就由淺入深的探討一下如何使用python做一個(gè)網(wǎng)絡(luò)爬蟲來抓取一些頁面信息。今天我們使用的庫(包含python自身攜帶的庫和第三庫) ...

    時(shí)飛 評(píng)論0 收藏0
  • 如何使用Python制作網(wǎng)絡(luò)爬蟲

    摘要:在近幾年迅速咋程序界掀起了不小的波瀾,而關(guān)于的第三庫也使廣大程序員趨之若鶩,今天我們就由淺入深的探討一下如何使用做一個(gè)網(wǎng)絡(luò)爬蟲來抓取一些頁面信息。 Python在近幾年迅速咋程序界掀起了不小的波瀾,而關(guān)于python的第三庫也使廣大程序員趨之若鶩,今天我們就由淺入深的探討一下如何使用python做一個(gè)網(wǎng)絡(luò)爬蟲來抓取一些頁面信息。今天我們使用的庫(包含python自身攜帶的庫和第三庫) ...

    binaryTree 評(píng)論0 收藏0

發(fā)表評(píng)論

0條評(píng)論

最新活動(dòng)
閱讀需要支付1元查看
<