Python 爬蟲(chóng)利器 Selenium

RobinQu 發(fā)布于2019-07-30 17:57 / 3338人閱讀

摘要：還記得前幾節(jié)，我們?cè)跇?gòu)造請(qǐng)求時(shí)會(huì)給請(qǐng)求加上瀏覽器目的就是為了讓我們的請(qǐng)求模擬瀏覽器的行為，防止被網(wǎng)站的反爬蟲(chóng)策略限制。創(chuàng)建一個(gè)實(shí)例打開(kāi)網(wǎng)址運(yùn)行后會(huì)發(fā)現(xiàn)程序自動(dòng)打開(kāi)了瀏覽器，并且定向到了百度首頁(yè)。

前面幾節(jié)，我們學(xué)習(xí)了用 requests 構(gòu)造頁(yè)面請(qǐng)求來(lái)爬取靜態(tài)網(wǎng)頁(yè)中的信息以及通過(guò) requests 構(gòu)造 Ajax 請(qǐng)求直接獲取返回的 JSON 信息。

還記得前幾節(jié)，我們?cè)跇?gòu)造請(qǐng)求時(shí)會(huì)給請(qǐng)求加上瀏覽器 headers,目的就是為了讓我們的請(qǐng)求模擬瀏覽器的行為，防止被網(wǎng)站的反爬蟲(chóng)策略限制。今天要介紹的 Selenium 是一款強(qiáng)大的工具，它可以控制我們的瀏覽器，這樣一來(lái)程序的行為就和人類(lèi)完全一樣了。

通過(guò)使用 Selenium 可以解決幾個(gè)問(wèn)題：

頁(yè)面內(nèi)容是由 JavaScript 動(dòng)態(tài)生成，通過(guò) requests 請(qǐng)求頁(yè)面無(wú)法獲取內(nèi)容。

爬蟲(chóng)程序被反爬蟲(chóng)策略限制

讓程序的行為和人一樣

安裝

pip install selenium

安裝瀏覽器驅(qū)動(dòng)

驅(qū)動(dòng)下載地址

下載后把驅(qū)動(dòng)文件加入環(huán)境變量?；蛘咧苯影羊?qū)動(dòng)文件和 Python腳本放到同一文件夾下面

測(cè)試
安裝完成后，可以編寫(xiě)以下腳本來(lái)測(cè)試是否安裝成功。

from selenium import webdriver
driver = webdriver.Chrome()  # 創(chuàng)建一個(gè) Chrome WebDriver 實(shí)例
driver.get("https://www.baidu.com/")  # 打開(kāi)網(wǎng)址

運(yùn)行后會(huì)發(fā)現(xiàn)程序自動(dòng)打開(kāi)了 Chrome 瀏覽器，并且定向到了百度首頁(yè)。

與頁(yè)面交互
WebDriver定義了很多方法，我們可以很方便的操作頁(yè)面上的元素
比如獲取元素，可以通過(guò) driver.find_element_by_id("id")或者driver.find_element_by_name("name")以及 xpath路徑的方式來(lái)獲取元素?？梢酝ㄟ^(guò)send_keys 向輸入框中寫(xiě)入文本。

from selenium import webdriver
driver = webdriver.Chrome()
driver.get("https://www.baidu.com/")
search_input = driver.find_element_by_id("kw") # 獲取到百度搜索框
search_input.send_keys("劉亦菲")  # 自動(dòng)輸入 劉亦菲
submit = driver.find_element_by_id("su")  # 獲取到百度一下按鈕
submit.click()  # 點(diǎn)擊搜索

運(yùn)行以上腳本，程序會(huì)自動(dòng)打開(kāi) Chrome 瀏覽器，并自動(dòng)搜索劉亦菲

其他操作
Selenium 可以進(jìn)行各種各樣的操作，使程序完全符合人類(lèi)的操作習(xí)慣。下面看一下還有哪些功能。

具體可以看官方文檔，這里貼一下地址
https://selenium-python-zh.readthedocs.io/en/latest/index.html

云服務(wù)器 GPU云服務(wù)器 selenium網(wǎng)絡(luò)爬蟲(chóng) python開(kāi)發(fā)利器 Python_selenium_phan 分析利器

文章版權(quán)歸作者所有，未經(jīng)允許請(qǐng)勿轉(zhuǎn)載,若此文章存在違規(guī)行為，您可以聯(lián)系管理員刪除。

轉(zhuǎn)載請(qǐng)注明本文地址：http://systransis.cn/yun/42529.html

發(fā)表評(píng)論

登陸后可評(píng)論

0條評(píng)論

RobinQu

男|高級(jí)講師

我要關(guān)注我要私信

TA的文章

0基礎(chǔ)C語(yǔ)言保姆教學(xué)——第五節(jié) 數(shù)組

閱讀 3924·2021-11-24 09:38
基于C-V2X的闖紅燈預(yù)警方法與流程

閱讀 3106·2021-11-17 09:33
Megalayer雙11香港服務(wù)器和美國(guó)服務(wù)器特惠（獨(dú)立服務(wù)器月付299元）

閱讀 3878·2021-11-10 11:48
#便宜VPS#Fiberia：1核/4G/50G SSD/2T流量/1Gbps/荷蘭/月付$2.9

閱讀 1244·2021-10-14 09:48
CSS三欄布局的四種方法

閱讀 3137·2019-08-30 13:14
CSS中position屬性（sticky）

閱讀 2554·2019-08-29 18:37
CSS 入門(mén)指南：（1）工作原理

閱讀 3400·2019-08-29 12:38
不簡(jiǎn)單的前端性能優(yōu)化

閱讀 1422·2019-08-29 12:30

成人国产在线小视频_日韩寡妇人妻调教在线播放_色成人www永久在线观看_2018国产精品久久_亚洲欧美高清在线30p_亚洲少妇综合一区_黄色在线播放国产_亚洲另类技巧小说校园_国产主播xx日韩_a级毛片在线免费

資訊專(zhuān)欄INFORMATION COLUMN

上云采購(gòu)季！| 2核2G4M爆款云服務(wù)器低至59元/年，更有多臺(tái)、長(zhǎng)期優(yōu)惠，快來(lái)選購(gòu)！

Python 爬蟲(chóng)利器 Selenium

相關(guān)文章

**零基礎(chǔ)如何學(xué)爬蟲(chóng)技術(shù)**

爬蟲(chóng) + 自動(dòng)化利器 selenium 之自學(xué)成才篇（二）

**??爬蟲(chóng)+自動(dòng)化利器 selenium 之自學(xué)成才篇（一）??**

BeautifulSoup：網(wǎng)頁(yè)解析利器上手簡(jiǎn)介

Python爬蟲(chóng)學(xué)習(xí)路線

發(fā)表評(píng)論

0條評(píng)論

RobinQu

男|高級(jí)講師

TA的文章

0基礎(chǔ)C語(yǔ)言保姆教學(xué)——第五節(jié) 數(shù)組

基于C-V2X的闖紅燈預(yù)警方法與流程

Megalayer雙11香港服務(wù)器和美國(guó)服務(wù)器特惠（獨(dú)立服務(wù)器月付299元）

#便宜VPS#Fiberia：1核/4G/50G SSD/2T流量/1Gbps/荷蘭/月付$2.9

CSS三欄布局的四種方法

CSS中position屬性（sticky）

CSS 入門(mén)指南：（1）工作原理

不簡(jiǎn)單的前端性能優(yōu)化

最新活動(dòng)

資訊專(zhuān)欄INFORMATION COLUMN

上云采購(gòu)季！| 2核2G4M爆款云服務(wù)器低至59元/年，更有多臺(tái)、長(zhǎng)期優(yōu)惠，快來(lái)選購(gòu)！

Python 爬蟲(chóng)利器 Selenium

相關(guān)文章

發(fā)表評(píng)論

0條評(píng)論

男|高級(jí)講師

TA的文章

最新活動(dòng)

上云采購(gòu)季！| 2核2G4M爆款云服務(wù)器低至59元/年，更有多臺(tái)、長(zhǎng)期優(yōu)惠，快來(lái)選購(gòu)！