15、web爬蟲講解2—urllib庫中使用xpath表達(dá)式—BeautifulSoup基礎(chǔ)

lcodecorex 發(fā)布于2019-07-31 11:24 / 3451人閱讀

摘要：百度云搜索搜網(wǎng)盤在中，我們一樣可以使用表達(dá)式進(jìn)行信息提取，此時(shí)，你需要首先安裝模塊，然后將網(wǎng)頁數(shù)據(jù)通過下的轉(zhuǎn)化為的形式庫中使用表達(dá)式將獲取到的字符串，轉(zhuǎn)換成樹形結(jié)構(gòu)，也就是表達(dá)式可以獲取的格式導(dǎo)入樹形結(jié)構(gòu)轉(zhuǎn)換模塊將獲取到的字符串，

【百度云搜索:http://www.bdyss.cn】 【搜網(wǎng)盤:http://www.swpan.cn】

在urllib中，我們一樣可以使用xpath表達(dá)式進(jìn)行信息提取，此時(shí)，你需要首先安裝lxml模塊，然后將網(wǎng)頁數(shù)據(jù)通過lxml下的etree轉(zhuǎn)化為treedata的形式

urllib庫中使用xpath表達(dá)式

etree.HTML()將獲取到的html字符串，轉(zhuǎn)換成樹形結(jié)構(gòu)，也就是xpath表達(dá)式可以獲取的格式

#!/usr/bin/env?python
#?-*-?coding:utf8?-*-
import?urllib.request
from?lxml?import?etree??#導(dǎo)入html樹形結(jié)構(gòu)轉(zhuǎn)換模塊

wye?=?urllib.request.urlopen("http://sh.qihoo.com/pc/home").read().decode("utf-8","ignore")
zhuanh?=?etree.HTML(wye)??#將獲取到的html字符串，轉(zhuǎn)換成樹形結(jié)構(gòu)，也就是xpath表達(dá)式可以獲取的格式
print(zhuanh)
hqq?=?zhuanh.xpath("/html/head/title/text()")?#通過xpath表達(dá)式獲取標(biāo)題

#注意，xpath表達(dá)式獲取到數(shù)據(jù)，有時(shí)候是列表，有時(shí)候不是列表所以要做如下處理
if?str(type(hqq))?==?"":??#判斷獲取到的是否是列表
????print(hqq)
else:
????xh_hqq?=?[i?for?i?in?hqq]???????#如果不是列表，循環(huán)數(shù)據(jù)組合成列表
????print(xh_hqq)

#返回?：["【今日爆點(diǎn)】你的專屬資訊平臺(tái)"]

BeautifulSoup基礎(chǔ)

BeautifulSoup是獲取thml元素的模塊

BeautifulSoup-3.2.1版本

【轉(zhuǎn)載自：http://www.lqkweb.com】

GPU云服務(wù)器云服務(wù)器 js基礎(chǔ)視頻講解正則表達(dá)式基礎(chǔ) ensp防火墻web管理界面講解 BeautifulSoup

文章版權(quán)歸作者所有，未經(jīng)允許請(qǐng)勿轉(zhuǎn)載,若此文章存在違規(guī)行為，您可以聯(lián)系管理員刪除。

轉(zhuǎn)載請(qǐng)注明本文地址：http://systransis.cn/yun/45066.html

發(fā)表評(píng)論

登陸后可評(píng)論

0條評(píng)論

lcodecorex

男|高級(jí)講師

我要關(guān)注我要私信

TA的文章

盤點(diǎn)前端開發(fā)中那些用得少卻很實(shí)用的功能

閱讀 489·2019-08-30 15:44
重學(xué)前端學(xué)習(xí)筆記（十九）--JavaScript中的函數(shù)

閱讀 903·2019-08-30 10:55
html+js(swiper.js)+css左右滑動(dòng)切換頁面效果，適配移動(dòng)端

閱讀 2737·2019-08-29 15:16
PostCSS自學(xué)筆記（二）【插件篇】

閱讀 942·2019-08-29 13:17
Javascript基礎(chǔ)之-this

閱讀 2811·2019-08-26 13:27
[譯] 關(guān)于 Angular 動(dòng)態(tài)組件你需要知道的

閱讀 578·2019-08-26 11:53
【全棧之路】JAVA基礎(chǔ)課程十一_JDK8十大新特性（20190706v1.2）

閱讀 2125·2019-08-23 18:31
jQuery之模擬實(shí)現(xiàn)$().animate()（上）

閱讀 1893·2019-08-23 18:23

成人国产在线小视频_日韩寡妇人妻调教在线播放_色成人www永久在线观看_2018国产精品久久_亚洲欧美高清在线30p_亚洲少妇综合一区_黄色在线播放国产_亚洲另类技巧小说校园_国产主播xx日韩_a级毛片在线免费

資訊專欄INFORMATION COLUMN

上云采購季！| 2核2G4M爆款云服務(wù)器低至59元/年，更有多臺(tái)、長期優(yōu)惠，快來選購！

15、web爬蟲講解2—urllib庫中使用xpath表達(dá)式—BeautifulSoup基礎(chǔ)

相關(guān)文章

Python_爬蟲基礎(chǔ)

精通Python網(wǎng)絡(luò)爬蟲(0):網(wǎng)絡(luò)爬蟲學(xué)習(xí)路線

如何使用Python制作網(wǎng)絡(luò)爬蟲

如何使用Python制作網(wǎng)絡(luò)爬蟲

發(fā)表評(píng)論

0條評(píng)論

lcodecorex

男|高級(jí)講師

TA的文章

盤點(diǎn)前端開發(fā)中那些用得少卻很實(shí)用的功能

重學(xué)前端學(xué)習(xí)筆記（十九）--JavaScript中的函數(shù)

html+js(swiper.js)+css左右滑動(dòng)切換頁面效果，適配移動(dòng)端

PostCSS自學(xué)筆記（二）【插件篇】

Javascript基礎(chǔ)之-this

[譯] 關(guān)于 Angular 動(dòng)態(tài)組件你需要知道的

【全棧之路】JAVA基礎(chǔ)課程十一_JDK8十大新特性（20190706v1.2）

jQuery之模擬實(shí)現(xiàn)$().animate()（上）

最新活動(dòng)

資訊專欄INFORMATION COLUMN

上云采購季！| 2核2G4M爆款云服務(wù)器低至59元/年，更有多臺(tái)、長期優(yōu)惠，快來選購！

15、web爬蟲講解2—urllib庫中使用xpath表達(dá)式—BeautifulSoup基礎(chǔ)

相關(guān)文章

發(fā)表評(píng)論

0條評(píng)論

男|高級(jí)講師

TA的文章

最新活動(dòng)

上云采購季！| 2核2G4M爆款云服務(wù)器低至59元/年，更有多臺(tái)、長期優(yōu)惠，快來選購！

15、web爬蟲講解2—urllib庫中使用xpath表達(dá)式—BeautifulSoup基礎(chǔ)