【Python爬蟲】4萬字，詳解selenium從入門到實戰(zhàn)【錯過再無】

shiyang6017 發(fā)布于2021-10-11 10:59 / 3329人閱讀

摘要：難在哪里根據(jù)上面的標(biāo)簽需要定位最后一行標(biāo)簽，以下列出了四種方式，定位的方式多樣并不唯一，使用時根據(jù)情況進行解析即可。加入每日一練我們使用并指明標(biāo)簽內(nèi)全部文本即可定位。

?跳轉(zhuǎn)文末? 獲取實戰(zhàn)源碼與作者聯(lián)系方式，共同學(xué)習(xí)進步

文章目錄

簡介

Selenium 是最廣泛使用的開源 Web UI（用戶界面）自動化測試套件之一。Selenium 支持的語言包括C#，Java，Perl，PHP，Python 和 Ruby。目前，Selenium Web 驅(qū)動程序最受 Python 和 C＃歡迎。 Selenium 測試腳本可以使用任何支持的編程語言進行編碼，并且可以直接在大多數(shù)現(xiàn)代 Web 瀏覽器中運行。在爬蟲領(lǐng)域 selenium 同樣是一把利器，能夠解決大部分的網(wǎng)頁的反爬問題，但也不是萬能的，它最明顯的缺點就是速度慢。下面就進入正式的 study 階段。

selenium安裝

打開 cmd，輸入下面命令進行安裝。

pip install -i https://pypi.douban.com/simple selenium

執(zhí)行后，使用 pip show selenium 查看是否安裝成功。

安裝瀏覽器驅(qū)動

針對不同的瀏覽器，需要安裝不同的驅(qū)動。下面列舉了常見的瀏覽器與對應(yīng)的驅(qū)動程序下載鏈接，部分網(wǎng)址需要 “科學(xué)上網(wǎng)” 才能打開哦（ffffdd）。

Firefox 瀏覽器驅(qū)動：Firefox
Chrome 瀏覽器驅(qū)動：Chrome
IE 瀏覽器驅(qū)動：IE
Edge 瀏覽器驅(qū)動：Edge
PhantomJS 瀏覽器驅(qū)動：PhantomJS
Opera 瀏覽器驅(qū)動：Opera

這里以安裝 Chrome 驅(qū)動作為演示。但 Chrome 在用 selenium 進行自動化測試時還是有部分 bug ，常規(guī)使用沒什么問題，但如果出現(xiàn)一些很少見的報錯，可以使用 Firefox 進行嘗試，畢竟是 selenium 官方推薦使用的。

確定瀏覽器版本

在新標(biāo)簽頁輸入 chrome://settings/ 進入設(shè)置界面，然后選擇【關(guān)于 Chrome】

查看自己的版本信息。這里我的版本是94，這樣在下載對應(yīng)版本的 Chrome 驅(qū)動即可。

下載驅(qū)動

打開 Chrome驅(qū)動。單擊對應(yīng)的版本。

根據(jù)自己的操作系統(tǒng)，選擇下載。

下載完成后，壓縮包內(nèi)只有一個 exe 文件。

將 chromedriver.exe 保存到任意位置，并把當(dāng)前路徑保存到環(huán)境變量中（我的電腦>>右鍵屬性>>高級系統(tǒng)設(shè)置>>高級>>環(huán)境變量>>系統(tǒng)變量>>Path），添加的時候要注意不要把 path 變量給覆蓋了，如果覆蓋了千萬別關(guān)機，然后百度。添加成功后使用下面代碼進行測試。

from selenium import webdriver# Chrome瀏覽器driver = webdriver.Chrome()

定位頁面元素

打開指定頁面

使用 selenium 定位頁面元素的前提是你已經(jīng)了解基本的頁面布局及各種標(biāo)簽含義，當(dāng)然如果之前沒有接觸過，現(xiàn)在我也可以帶你簡單的了解一下。
以我們熟知的 CSDN 為例，我們進入首頁，按 【F12】 進入開發(fā)者工具。紅框中顯示的就是頁面的代碼，我們要做的就是從代碼中定位獲取我們需要的元素。

想要定位并獲取頁面中的信息，首先要使用 webdriver 打開指定頁面，再去定位。

from selenium import webdriver# Chrome瀏覽器driver = webdriver.Chrome()driver.get("https://www.csdn.net/")

執(zhí)行上面語句后會發(fā)現(xiàn)，瀏覽器打開 CSDN 主頁后會馬上關(guān)閉，想要防止瀏覽器自動關(guān)閉，可以添加下面代碼。

# 不自動關(guān)閉瀏覽器option = webdriver.ChromeOptions()option.add_experimental_option("detach", True)# 將option作為參數(shù)添加到Chrome中driver = webdriver.Chrome(chrome_options=option)

這樣將上面的代碼組合再打開瀏覽器就不會自動關(guān)閉了。

from selenium import webdriver# 不自動關(guān)閉瀏覽器option = webdriver.ChromeOptions()option.add_experimental_option("detach", True)# 注意此處添加了chrome_options參數(shù)driver = webdriver.Chrome(chrome_options=option)driver.get("https://www.csdn.net/")

下面我們再來看看幾種常見的頁面元素定位方式。

id 定位

標(biāo)簽的 id 具有唯一性，就像人的身份證，假設(shè)有個 input 標(biāo)簽如下。

<input id="toolbar-search-input" autocomplete="off" type="text" value="" placeholder="C++難在哪里？">

我們可以通過 id 定位到它，由于 id 的唯一性，我們可以不用管其他的標(biāo)簽的內(nèi)容。

driver.find_element_by_id("toolbar-search-input")

name 定位

name 指定標(biāo)簽的名稱，在頁面中可以不唯一。假設(shè)有個 meta 標(biāo)簽如下

<meta name="keywords" content="CSDN博客,CSDN學(xué)院,CSDN論壇,CSDN直播">

我們可以使用 find_element_by_name 定位到 meta 標(biāo)簽。

driver.find_element_by_name("keywords")

class 定位

class 指定標(biāo)簽的類名，在頁面中可以不唯一。假設(shè)有個 div 標(biāo)簽如下

<div class="toolbar-search-container">

我們可以使用 find_element_by_class_name 定位到 div 標(biāo)簽。

driver.find_element_by_class_name("toolbar-search-container")

tag 定位

每個 tag 往往用來定義一類功能，所以通過 tag 來識別某個元素的成功率很低，每個頁面一般都用很多相同的 tag ，比如：/

、/ 等。這里還是用上面的 div 作為例子。

<div class="toolbar-search-container">

我們可以使用 find_element_by_class_name 定位到 div 標(biāo)簽。

driver.find_element_by_tag_name("div")

xpath 定位

xpath 是一種在 XML 文檔中定位元素的語言，它擁有多種定位方式，下面通過實例我們看一下它的幾種使用方式。

<html>  <head>...<head/>  <body>    <div id="csdn-toolbar">      <div class="toolbar-inside">        <div class="toolbar-container">          <div class="toolbar-container-left">...div>          <div class="toolbar-container-middle">            <div class="toolbar-search onlySearch">			<div class="toolbar-search-container">				<input id="toolbar-search-input" autocomplete="off" type="text" value="" placeholder="C++難在哪里？">

根據(jù)上面的標(biāo)簽需要定位最后一行 input 標(biāo)簽，以下列出了四種方式，xpath 定位的方式多樣并不唯一，使用時根據(jù)情況進行解析即可。

# 絕對路徑（層級關(guān)系）定位driver.find_element_by_xpath(	"/html/body/div/div/div/div[2]/div/div/input[1]")# 利用元素屬性定位driver.find_element_by_xpath(	"http://*[@id="toolbar-search-input"]"))# 層級+元素屬性定位driver.find_element_by_xpath(	"http://div[@id="csdn-toolbar"]/div/div/div[2]/div/div/input[1]")# 邏輯運算符定位driver.find_element_by_xpath(	"http://*[@id="toolbar-search-input" and @autocomplete="off"]")

css 定位

CSS 使用選擇器來為頁面元素綁定屬性，它可以較為靈活的選擇控件的任意屬性，一般定位速度比 xpath 要快，但使用起來略有難度。
CSS 選擇器常見語法：

方法	例子	描述
.class	`.toolbar-search-container`	選擇 `class = "toolbar-search-container"` 的所有元素
#id	`#toolbar-search-input`	選擇 `id = "toolbar-search-input"` 的元素
*	`*`	選擇所有元素
element	`input`	選擇所有元素
element>element	`div>input`	選擇父元素為的所有元素
element+element	`div+input`	選擇同一級中在之后的所有元素
[attribute=value]	`type="text"`	選擇 `type = "text"` 的所有元素

舉個簡單的例子，同樣定位上面實例中的 input 標(biāo)簽。

driver.find_element_by_css_selector("#toolbar-search-input")driver.find_element_by_css_selector("html>body>div>div>div>div>div>div>input")

link 定位

link 專門用來定位文本鏈接，假如要定位下面這一標(biāo)簽。

<div class="practice-box" data-v-04f46969="">加入！每日一練div>

我們使用 find_element_by_link_text 并指明標(biāo)簽內(nèi)全部文本即可定位。

driver.find_element_by_link_text("加入！每日一練")

partial_link 定位

partial_link 翻譯過來就是“部分鏈接”，對于有些文本很長，這時候就可以只指定部分文本即可定位，同樣使用剛才的例子。

<div class="practice-box" data-v-04f46969="">加入！每日一練div>

我們使用 find_element_by_partial_link_text 并指明標(biāo)簽內(nèi)部分文本進行定位。

driver.find_element_by_partial_link_text("加入")

瀏覽器控制

修改瀏覽器窗口大小

webdriver 提供 set_window_size() 方法來修改瀏覽器窗口的大小。

from selenium import webdriver# Chrome瀏覽器driver = webdriver.Chrome()driver.get("https://www.csdn.net/")# 設(shè)置瀏覽器瀏覽器的寬高為：600x800driver.set_window_size(600, 800)

也可以使用 maximize_window() 方法可以實現(xiàn)瀏覽器全屏顯示。

from selenium import webdriver# Chrome瀏覽器driver = webdriver.Chrome()driver.get("https://www.csdn.net/")# 設(shè)置瀏覽器瀏覽器的寬高為：600x800driver.maximize_window()

瀏覽器前進&后退

webdriver 提供 back 和 forward 方法來實現(xiàn)頁面的后退與前進。下面我們 ①進入CSDN首頁，②打開CSDN個人主頁，③back 返回到CSDN首頁，④ forward 前進到個人主頁。

from selenium import webdriverfrom time import sleepdriver = webdriver.Chrome()# 訪問CSDN首頁driver.get("https://www.csdn.net/")sleep(2)#訪問CSDN個人主頁driver.get("https://blog.csdn.net/qq_43965708")sleep(2)#返回（后退）到CSDN首頁driver.back()sleep(2)#前進到個人主頁driver.forward()

細心的讀者會發(fā)現(xiàn)第二次 get() 打開新頁面時，會在原來的頁面打開，而不是在新標(biāo)簽中打開。如果想的話也可以在新的標(biāo)簽頁中打開新的鏈接，但需要更改一下代碼，執(zhí)行 js 語句來打開新的標(biāo)簽。

# 在原頁面打開driver.get("https://blog.csdn.net/qq_43965708")# 新標(biāo)簽中打開js = "window.open("https://blog.csdn.net/qq_43965708")"driver.execute_script(js)

瀏覽器刷新

在一些特殊情況下我們可能需要刷新頁面來獲取最新的頁面數(shù)據(jù)，這時我們可以使用 refresh() 來刷新當(dāng)前頁面。

# 刷新頁面driver.refresh()

瀏覽器窗口切換

在很多時候我們都需要用到窗口切換，比如：當(dāng)我們點擊注冊按鈕時，它一般會打開一個新的標(biāo)簽頁，但實際上代碼并沒有切換到最新頁面中，這時你如果要定位注冊頁面的標(biāo)簽就會發(fā)現(xiàn)定位不到，這時就需要將實際窗口切換到最新打開的那個窗口。我們先獲取當(dāng)前各個窗口的句柄，這些信息的保存順序是按照時間來的，最新打開的窗口放在數(shù)組的末尾，這時我們就可以定位到最新打開的那個窗口了。

# 獲取打開的多個窗口句柄windows = driver.window_handles# 切換到當(dāng)前最新打開的窗口driver.switch_to.window(windows[-1])

常見操作

webdriver中的常見操作有：

方法	描述
`send_keys()`	模擬輸入指定內(nèi)容
`clear()`	清除文本內(nèi)容
`is_displayed()`	判斷該元素是否可見
`get_attribute()`	獲取標(biāo)簽屬性值
`size`	返回元素的尺寸
`text`	返回元素文本

接下來還是用 CSDN 首頁為例，需要用到的就是搜素框和搜索按鈕。通過下面的例子就可以氣息的了解各個操作的用法了。

from selenium import webdriverdriver = webdriver.Chrome()driver.get("https://www.csdn.net/")sleep(2)# 定位搜索輸入框text_label = driver.find_element_by_xpath("http://*[@id="toolbar-search-input"]")# 在搜索框中輸入 Dream丶Killertext_label.send_keys("Dream丶Killer")sleep(2)# 清除搜索框中的內(nèi)容text_label.clear()# 輸出搜索框元素是否可見print(text_label.is_displayed())# 輸出placeholder的值print(text_label.get_attribute("placeholder"))# 定位搜索按鈕button = driver.find_element_by_xpath("http://*[@id="toolbar-search-button"]/span")# 輸出按鈕的大小print(button.size)# 輸出按鈕上的文本print(button.text)"""輸出內(nèi)容Truepython面試100問{"height": 32, "width": 28}搜索"""

鼠標(biāo)控制

在webdriver 中，鼠標(biāo)操作都封裝在ActionChains類中，常見方法如下：

方法	描述
`click()`	單擊左鍵
`context_click()`	單擊右鍵
`double_click()`	雙擊
`drag_and_drop()`	拖動
`move_to_element()`	鼠標(biāo)懸停
`perform()`	執(zhí)行所有ActionChains中存儲的動作

單擊左鍵

模擬完成單擊鼠標(biāo)左鍵的操作，一般點擊進入子頁面等會用到，左鍵不需要用到 ActionChains 。

# 定位搜索按鈕button = driver.find_element_by_xpath("http://*[@id="toolbar-search-button"]/span")# 執(zhí)行單擊操作button.click()

單擊右鍵

鼠標(biāo)右擊的操作與左擊有很大不同，需要使用 ActionChains 。

from selenium.webdriver.common.action_chains import ActionChains# 定位搜索按鈕button = driver.find_element_by_xpath("http://*[@id="toolbar-search-button"]/span")# 右鍵搜索按鈕ActionChains(driver).context_click(button).perform()

雙擊

模擬鼠標(biāo)雙擊操作。

# 定位搜索按鈕button = driver.find_element_by_xpath("http://*[@id="toolbar-search-button"]/span")# 執(zhí)行雙擊動作ActionChains(driver).double_click(button).perform()

拖動

模擬鼠標(biāo)拖動操作，該操作有兩個必要參數(shù)，

source：鼠標(biāo)拖動的元素
target：鼠標(biāo)拖至并釋放的目標(biāo)元素

# 定位要拖動的元素source = driver.find_element_by_xpath("xxx")# 定位目標(biāo)元素target = driver.find_element_by_xpath("xxx")# 執(zhí)行拖動動作ActionChains(driver).drag_and_drop(source, target).perform()

鼠標(biāo)懸停

模擬懸停的作用一般是為了顯示隱藏的下拉框，比如 CSDN 主頁的收藏欄，我們看一下效果。

# 定位收藏欄collect  = driver.find_element_by_xpath("http://*[@id="csdn-toolbar"]/div/div/div[3]/div/div[3]/a")# 懸停至收藏標(biāo)簽處ActionChains(driver).move_to_element(collect).perform()

鍵盤控制

webdriver 中 Keys 類幾乎提供了鍵盤上的所有按鍵方法，我們可以使用 send_keys + Keys 實現(xiàn)輸出鍵盤上的組合按鍵如 “Ctrl + C”、“Ctrl + V” 等。

from selenium.webdriver.common.keys import Keys# 定位輸入框并輸入文本driver.find_element_by_id("xxx").send_keys("Dream丶killer")# 模擬回車鍵進行跳轉(zhuǎn)（輸入內(nèi)容后） driver.find_element_by_id("xxx").send_keys(Keys.ENTER)# 使用 Backspace 來刪除一個字符driver.find_element_by_id("xxx").send_keys(Keys.BACK_SPACE)# Ctrl + A 全選輸入框中內(nèi)容driver.find_element_by_id("xxx").send_keys(Keys.CONTROL, "a")# Ctrl + C 復(fù)制輸入框中內(nèi)容driver.find_element_by_id("xxx").send_keys(Keys.CONTROL, "c")# Ctrl + V 粘貼輸入框中內(nèi)容driver.find_element_by_id("xxx").send_keys(Keys.CONTROL, "v")

其他常見鍵盤操作：

操作	描述
`Keys.F1`	F1鍵
`Keys.SPACE`	空格
`Keys.TAB`	Tab鍵
`Keys.ESCAPE`	ESC鍵
`Keys.ALT`	Alt鍵
`Keys.SHIFT`	Shift鍵
`Keys.ARROW_DOWN`	向下箭頭
`Keys.ARROW_LEFT`	向左箭頭
`Keys.ARROW_RIGHT`	向右箭頭
`Keys.ARROW_UP`	向上箭頭

設(shè)置元素等待

很多頁面都使用 ajax 技術(shù)，頁面的元素不是同時被加載出來的，為了防止定位這些尚在加載的元素報錯，可以設(shè)置元素等來增加腳本的穩(wěn)定性。webdriver 中的等待分為顯式等待和隱式等待。

顯式等待

顯式等待：設(shè)置一個超時時間，每個一段時間就去檢測一次該元素是否存在，如果存在則執(zhí)行后續(xù)內(nèi)容，如果超過最大時間（超時時間）則拋出超時異常（TimeoutException）。顯示等待需要使用 WebDriverWait，同時配合 until 或 not until 。下面詳細講解一下。

WebDriverWait(driver, timeout, poll_frequency=0.5, ignored_exceptions=None)

driver：瀏覽器驅(qū)動
timeout：超時時間，單位秒
poll_frequency：每次檢測的間隔時間，默認(rèn)為0.5秒
ignored_exceptions：指定忽略的異常，如果在調(diào)用 until 或 until_not 的過程中拋出指定忽略的異常，則不中斷代碼，默認(rèn)忽略的只有 NoSuchElementException 。

until(method, message=’ ‘)
until_not(method, message=’ ")

method：指定預(yù)期條件的判斷方法，在等待期間，每隔一段時間調(diào)用該方法，判斷元素是否存在，直到元素出現(xiàn)。until_not 正好相反，當(dāng)元素消失或指定條件不成立，則繼續(xù)執(zhí)行后續(xù)代碼
message: 如果超時，拋出 TimeoutException ，并顯示 message 中的內(nèi)容

method 中的預(yù)期條件判斷方法是由 expected_conditions 提供，下面列舉常用方法。

先定義一個定位器

from selenium.webdriver.common.by import Byfrom selenium import webdriverdriver = webdriver.Chrome()locator = (By.ID, "kw")element = driver.find_element_by_id("kw")

方法	描述
title_is(‘百度一下’)	判斷當(dāng)前頁面的 title 是否等于預(yù)期
title_contains(‘百度’)	判斷當(dāng)前頁面的 title 是否包含預(yù)期字符串
presence_of_element_located(locator)	判斷元素是否被加到了 dom 樹里，并不代表該元素一定可見
visibility_of_element_located(locator)	判斷元素是否可見，可見代表元素非隱藏，并且元素的寬和高都不等于0
visibility_of(element)	跟上一個方法作用相同，但傳入?yún)?shù)為 element
text_to_be_present_in_element(locator , ‘百度’)	判斷元素中的 text 是否包含了預(yù)期的字符串
text_to_be_present_in_element_value(locator , ‘某值’)	判斷元素中的 value 屬性是否包含了預(yù)期的字符串
frame_to_be_available_and_switch_to_it(locator)	判斷該 frame 是否可以 switch 進去，True 則 switch 進去，反之 False
invisibility_of_element_located(locator)	判斷元素中是否不存在于 dom 樹或不可見
element_to_be_clickable(locator)	判斷元素中是否可見并且是可點擊的
staleness_of(element)	等待元素從 dom 樹中移除
element_to_be_selected(element)	判斷元素是否被選中,一般用在下拉列表
element_selection_state_to_be(element, True)	判斷元素的選中狀態(tài)是否符合預(yù)期，參數(shù) element，第二個參數(shù)為 True/False
element_located_selection_state_to_be(locator, True)	跟上一個方法作用相同，但傳入?yún)?shù)為 locator
alert_is_present()	判斷頁面上是否存在 alert

下面寫一個簡單的例子，這里定位一個頁面不存在的元素，拋出的異常信息正是我們指定的內(nèi)容。

from selenium import webdriverfrom selenium.webdriver.support.ui import WebDriverWaitfrom selenium.webdriver.support import expected_conditions as ECfrom selenium.webdriver.common.by import Bydriver = webdriver.Chrome()element = WebDriverWait(driver, 5, 0.5).until(            EC.presence_of_element_located((By.ID, "kw")),                                           message="超時啦!")

隱式等待

隱式等待也是指定一個超時時間，如果超出這個時間指定元素還沒有被加載出來，就會拋出 NoSuchElementException 異常。
除了拋出的異常不同外，還有一點，隱式等待是全局性的，即運行過程中，如果元素可以定位到，它不會影響代碼運行，但如果定位不到，則它會以輪詢的方式不斷地訪問元素直到元素被找到，若超過指定時間，則拋出異常。

使用 implicitly_wait() 來實現(xiàn)隱式等待，使用難度相對于顯式等待要簡單很多。
示例：打開個人主頁，設(shè)置一個隱式等待時間 5s，通過 id 定位一個不存在的元素，最后打印拋出的異常與運行時間。

from selenium import webdriverfrom time import timedriver = webdriver.Chrome()driver.get("https://blog.csdn.net/qq_43965708")start = time()driver.implicitly_wait(5)try:    driver.find_element_by_id("kw")except Exception as e:    print(e)    print(f"耗時：{time()-start}")

代碼運行到 driver.find_element_by_id("kw") 這句之后觸發(fā)隱式等待，在輪詢檢查 5s 后仍然沒有定位

云服務(wù)器 GPU云服務(wù)器 python從入門到精通 python編程從入門到精通 python從入門到精通pdf spark從入門到

文章版權(quán)歸作者所有，未經(jīng)允許請勿轉(zhuǎn)載,若此文章存在違規(guī)行為，您可以聯(lián)系管理員刪除。

轉(zhuǎn)載請注明本文地址：http://systransis.cn/yun/122210.html

發(fā)表評論

登陸后可評論

0條評論

shiyang6017

男|高級講師

我要關(guān)注我要私信

TA的文章

tensorflow

閱讀 3166·2023-04-25 18:22
基于STM32Cube MX開發(fā)的TencentOS-Tiny軟件包

閱讀 2410·2021-11-17 09:33
【Python爬蟲】4萬字，詳解selenium從入門到實戰(zhàn)【錯過再無】

閱讀 3330·2021-10-11 10:59
我的虛擬主機怎么解釋-虛擬主機是什么概念？

閱讀 3246·2021-09-22 15:50
開發(fā)中idea常用快捷鍵集合

閱讀 2825·2021-09-10 10:50
基于Vue的點對點聊天項目

閱讀 869·2019-08-30 15:53
一段程序讓你看懂JS中的this

閱讀 456·2019-08-29 11:21
Vue - 組件開發(fā)和實例旋轉(zhuǎn)輪盤

閱讀 2925·2019-08-26 13:58

資訊專欄INFORMATION COLUMN

上云采購季！| 2核2G4M爆款云服務(wù)器低至59元/年，更有多臺、長期優(yōu)惠，快來選購！