python爬蟲神器PyQuery的使用方法

codecraft 發(fā)布于2019-07-25 10:27 / 786人閱讀

摘要：語法與幾乎完全相同，所以不用再去費心去記一些奇怪的方法了。目前版本官方文檔簡介可讓你用的語法來對進(jìn)行操作。如果利用，對和的處理將更快。因此執(zhí)行上述操作之后，本身也發(fā)生了變化。操作同樣的原汁原味的語法運行結(jié)果這不需要多解釋了吧。

前言

你是否覺得 XPath 的用法多少有點晦澀難記呢？

你是否覺得 BeautifulSoup 的語法多少有些慳吝難懂呢？

你是否甚至還在苦苦研究正則表達(dá)式卻因為少些了一個點而抓狂呢？

你是否已經(jīng)有了一些前端基礎(chǔ)了解選擇器卻與另外一些奇怪的選擇器語法混淆了呢？

嗯，那么，前端大大們的福音來了，PyQuery 來了，乍聽名字，你一定聯(lián)想到了 jQuery，如果你對 jQuery 熟悉，那么 PyQuery 來解析文檔就是不二之選！包括我在內(nèi)！

PyQuery 是 Python 仿照 jQuery 的嚴(yán)格實現(xiàn)。語法與 jQuery 幾乎完全相同，所以不用再去費心去記一些奇怪的方法了。

天下竟然有這等好事？我都等不及了！

安裝

有這等神器還不趕緊安裝了！來！

pip install pyquery

參考來源

本文內(nèi)容參考官方文檔，更多內(nèi)容，大家可以去官方文檔學(xué)習(xí)，畢竟那里才是最原汁原味的。

目前版本 1.2.4 (2016/3/24)

官方文檔

簡介

pyquery allows you to make jquery queries on xml documents. The API is
as much as possible the similar to jquery. pyquery uses lxml for fast
xml and html manipulation. This is not (or at least not yet) a library
to produce or interact with javascript code. I just liked the jquery
API and I missed it in python so I told myself “Hey let’s make jquery
in python”. This is the result. It can be used for many purposes, one
idea that I might try in the future is to use it for templating with
pure http templates that you modify using pyquery. I can also be used
for web scrapping or for theming applications with Deliverance.

pyquery 可讓你用 jQuery 的語法來對 xml 進(jìn)行操作。這I和 jQuery 十分類似。如果利用 lxml，pyquery 對 xml 和 html 的處理將更快。

這個庫不是（至少還不是）一個可以和 JavaScript交互的代碼庫，它只是非常像 jQuery API 而已。

初始化

在這里介紹四種初始化方式。

（1）直接字符串

from pyquery import PyQuery as pq
doc = pq("")

pq 參數(shù)可以直接傳入 HTML 代碼，doc 現(xiàn)在就相當(dāng)于 jQuery 里面的 $ 符號了。

（2）lxml.etree

from lxml import etree
doc = pq(etree.fromstring(""))

可以首先用 lxml 的 etree 處理一下代碼，這樣如果你的 HTML 代碼出現(xiàn)一些不完整或者疏漏，都會自動轉(zhuǎn)化為完整清晰結(jié)構(gòu)的 HTML代碼。

（3）直接傳URL

from pyquery import PyQuery as pq
doc = pq("http://www.baidu.com")

這里就像直接請求了一個網(wǎng)頁一樣，類似用 urllib2 來直接請求這個鏈接，得到 HTML 代碼。

（4）傳文件

from pyquery import PyQuery as pq
doc = pq(filename="hello.html")

可以直接傳某個路徑的文件名。

快速體驗

現(xiàn)在我們以本地文件為例，傳入一個名字為 hello.html 的文件，文件內(nèi)容為


    
         first item
         second item
         third item
         fourth item
         fifth item

編寫如下程序

from pyquery import PyQuery as pq
doc = pq(filename="hello.html")
print doc.html()
print type(doc)
li = doc("li")
print type(li)
print li.text()

運行結(jié)果

    
         first item
         second item
         third item
         fourth item
         fifth item
     
 


first item second item third item fourth item fifth item

看，回憶一下 jQuery 的語法，是不是運行結(jié)果都是一樣的呢？

在這里我們注意到了一點，PyQuery 初始化之后，返回類型是 PyQuery，利用了選擇器篩選一次之后，返回結(jié)果的類型依然還是 PyQuery，這簡直和 jQuery 如出一轍，不能更贊！然而想一下 BeautifulSoup 和 XPath 返回的是什么？列表！一種不能再進(jìn)行二次篩選（在這里指依然利用 BeautifulSoup 或者 XPath 語法）的對象！

然而比比 PyQuery，哦我簡直太愛它了！

屬性操作

你可以完全按照 jQuery 的語法來進(jìn)行 PyQuery 的操作。

from pyquery import PyQuery as pq

p = pq("")("p")
print p.attr("id")
print p.attr("id", "plop")
print p.attr("id", "hello")

運行結(jié)果

hello

再來一發(fā)

from pyquery import PyQuery as pq

p = pq("")("p")
print p.addClass("beauty")
print p.removeClass("hello")
print p.css("font-size", "16px")
print p.css({"background-color": "yellow"})

運行結(jié)果

依舊是那么優(yōu)雅與自信！

在這里我們發(fā)現(xiàn)了，這是一連串的操作，而 p 是一直在原來的結(jié)果上變化的。

因此執(zhí)行上述操作之后，p 本身也發(fā)生了變化。

DOM操作

同樣的原汁原味的 jQuery 語法

from pyquery import PyQuery as pq p = pq("

")("p") print p.append(" check out

運行結(jié)果

check out reddit

Oh yes! check out reddit

Germy

這不需要多解釋了吧。

DOM 操作也是與 jQuery 如出一轍。

遍歷

遍歷用到 items 方法返回對象列表，或者用 lambda

from pyquery import PyQuery as pq
doc = pq(filename="hello.html")
lis = doc("li")
for li in lis.items():
    print li.html()

print lis.each(lambda e: e)

運行結(jié)果

first item
second item
third item
fourth item
fifth item
first item
 second item
 third item
 fourth item
 fifth item

不過最常用的還是 items 方法

網(wǎng)頁請求

PyQuery 本身還有網(wǎng)頁請求功能，而且會把請求下來的網(wǎng)頁代碼轉(zhuǎn)為 PyQuery 對象。

from pyquery import PyQuery as pq
print pq("http://cuiqingcai.com/", headers={"user-agent": "pyquery"})
print pq("http://httpbin.org/post", {"foo": "bar"}, method="post", verify=True)

感受一下，GET，POST，樣樣通。

Ajax

PyQuery 同樣支持 Ajax 操作，帶有 get 和 post 方法，不過不常用，一般我們不會用 PyQuery 來做網(wǎng)絡(luò)請求，僅僅是用來解析。

PyQueryAjax

API

最后少不了的，API大放送。

API

原汁原味最全的API，都在里面了！如果你對 jQuery 語法不熟，強烈建議先學(xué)習(xí)下 jQuery，再回來看 PyQuery，你會感到異常親切！

結(jié)語

用完了 PyQuery，我已經(jīng)深深愛上了他！

你呢？

轉(zhuǎn)自：http://cuiqingcai.com/2636.html

云服務(wù)器 GPU云服務(wù)器 python爬蟲使用代理ip python 神器 python爬蟲的 python的爬蟲

文章版權(quán)歸作者所有，未經(jīng)允許請勿轉(zhuǎn)載,若此文章存在違規(guī)行為，您可以聯(lián)系管理員刪除。

轉(zhuǎn)載請注明本文地址：http://systransis.cn/yun/37972.html

發(fā)表評論

登陸后可評論

0條評論

codecraft

男|高級講師

我要關(guān)注我要私信

TA的文章

邊緣計算如何提高效率，實現(xiàn) 5G

閱讀 1130·2021-11-16 11:42
VPSMS：53元/月KVM-512MB/15G SSD/1TB/洛杉磯CN2 GIA

閱讀 2910·2021-10-12 10:18
【程序員必會十大算法】之分治算法（漢諾塔問題）

閱讀 2868·2021-09-24 09:48
Flexbox響應(yīng)式網(wǎng)頁布局 - W3Schools視頻02

閱讀 3471·2019-08-30 15:56
sublime Text3 前端常用插件

閱讀 1535·2019-08-30 14:17
在API 中，常用的code碼

閱讀 3052·2019-08-29 12:14
XPath 是一個好工具

閱讀 914·2019-08-27 10:51
溫故而知新：JS 變量提升與時間死區(qū)

閱讀 2032·2019-08-26 13:28

成人国产在线小视频_日韩寡妇人妻调教在线播放_色成人www永久在线观看_2018国产精品久久_亚洲欧美高清在线30p_亚洲少妇综合一区_黄色在线播放国产_亚洲另类技巧小说校园_国产主播xx日韩_a级毛片在线免费

資訊專欄INFORMATION COLUMN

上云采購季！| 2核2G4M爆款云服務(wù)器低至59元/年，更有多臺、長期優(yōu)惠，快來選購！

python爬蟲神器PyQuery的使用方法

相關(guān)文章

Google推出的爬蟲新神器：Pyppeteer，神擋殺神，佛擋殺佛！

python常用的包

***Python3網(wǎng)絡(luò)爬蟲實戰(zhàn)---30、解析庫的使用：PyQuery***

首次公開，整理12年積累的博客收藏夾，零距離展示《收藏夾吃灰》系列博客

Python3網(wǎng)絡(luò)爬蟲實戰(zhàn)---4、數(shù)據(jù)庫的安裝：MySQL、MongoDB、Redis

發(fā)表評論

0條評論

codecraft

男|高級講師

TA的文章

邊緣計算如何提高效率，實現(xiàn) 5G

VPSMS：53元/月KVM-512MB/15G SSD/1TB/洛杉磯CN2 GIA

【程序員必會十大算法】之分治算法（漢諾塔問題）

Flexbox響應(yīng)式網(wǎng)頁布局 - W3Schools視頻02

sublime Text3 前端常用插件

在API 中，常用的code碼

XPath 是一個好工具

溫故而知新：JS 變量提升與時間死區(qū)

最新活動

資訊專欄INFORMATION COLUMN

上云采購季！| 2核2G4M爆款云服務(wù)器低至59元/年，更有多臺、長期優(yōu)惠，快來選購！

python爬蟲神器PyQuery的使用方法

相關(guān)文章

發(fā)表評論

0條評論

男|高級講師

TA的文章

最新活動

上云采購季！| 2核2G4M爆款云服務(wù)器低至59元/年，更有多臺、長期優(yōu)惠，快來選購！