摘要:難在哪里根據(jù)上面的標(biāo)簽需要定位最后一行標(biāo)簽,以下列出了四種方式,定位的方式多樣并不唯一,使用時根據(jù)情況進行解析即可。加入每日一練我們使用并指明標(biāo)簽內(nèi)全部文本即可定位。
?跳轉(zhuǎn)文末? 獲取實戰(zhàn)源碼與作者聯(lián)系方式,共同學(xué)習(xí)進步
Selenium 是最廣泛使用的開源 Web UI(用戶界面)自動化測試套件之一。Selenium 支持的語言包括C#,Java,Perl,PHP,Python 和 Ruby。目前,Selenium Web 驅(qū)動程序最受 Python 和 C#歡迎。 Selenium 測試腳本可以使用任何支持的編程語言進行編碼,并且可以直接在大多數(shù)現(xiàn)代 Web 瀏覽器中運行。在爬蟲領(lǐng)域 selenium 同樣是一把利器,能夠解決大部分的網(wǎng)頁的反爬問題,但也不是萬能的,它最明顯的缺點就是速度慢。下面就進入正式的 study 階段。
打開 cmd,輸入下面命令進行安裝。
pip install -i https://pypi.douban.com/simple selenium
執(zhí)行后,使用 pip show selenium
查看是否安裝成功。
針對不同的瀏覽器,需要安裝不同的驅(qū)動。下面列舉了常見的瀏覽器與對應(yīng)的驅(qū)動程序下載鏈接,部分網(wǎng)址需要 “科學(xué)上網(wǎng)” 才能打開哦(ffffdd)。
這里以安裝 Chrome
驅(qū)動作為演示。但 Chrome
在用 selenium
進行自動化測試時還是有部分 bug
,常規(guī)使用沒什么問題,但如果出現(xiàn)一些很少見的報錯,可以使用 Firefox
進行嘗試,畢竟是 selenium
官方推薦使用的。
在新標(biāo)簽頁輸入 chrome://settings/
進入設(shè)置界面,然后選擇 【關(guān)于 Chrome】
查看自己的版本信息。這里我的版本是94,這樣在下載對應(yīng)版本的 Chrome
驅(qū)動即可。
打開 Chrome驅(qū)動 。單擊對應(yīng)的版本。
根據(jù)自己的操作系統(tǒng),選擇下載。
下載完成后,壓縮包內(nèi)只有一個 exe
文件。
將 chromedriver.exe
保存到任意位置,并把當(dāng)前路徑保存到環(huán)境變量中(我的電腦>>右鍵屬性>>高級系統(tǒng)設(shè)置>>高級>>環(huán)境變量>>系統(tǒng)變量>>Path),添加的時候要注意不要把 path 變量給覆蓋了,如果覆蓋了千萬別關(guān)機,然后百度。添加成功后使用下面代碼進行測試。
from selenium import webdriver# Chrome瀏覽器driver = webdriver.Chrome()
使用 selenium
定位頁面元素的前提是你已經(jīng)了解基本的頁面布局及各種標(biāo)簽含義,當(dāng)然如果之前沒有接觸過,現(xiàn)在我也可以帶你簡單的了解一下。
以我們熟知的 CSDN 為例,我們進入首頁,按 【F12】 進入開發(fā)者工具。紅框中顯示的就是頁面的代碼,我們要做的就是從代碼中定位獲取我們需要的元素。
想要定位并獲取頁面中的信息,首先要使用 webdriver
打開指定頁面,再去定位。
from selenium import webdriver# Chrome瀏覽器driver = webdriver.Chrome()driver.get("https://www.csdn.net/")
執(zhí)行上面語句后會發(fā)現(xiàn),瀏覽器打開 CSDN 主頁后會馬上關(guān)閉,想要防止瀏覽器自動關(guān)閉,可以添加下面代碼。
# 不自動關(guān)閉瀏覽器option = webdriver.ChromeOptions()option.add_experimental_option("detach", True)# 將option作為參數(shù)添加到Chrome中driver = webdriver.Chrome(chrome_options=option)
這樣將上面的代碼組合再打開瀏覽器就不會自動關(guān)閉了。
from selenium import webdriver# 不自動關(guān)閉瀏覽器option = webdriver.ChromeOptions()option.add_experimental_option("detach", True)# 注意此處添加了chrome_options參數(shù)driver = webdriver.Chrome(chrome_options=option)driver.get("https://www.csdn.net/")
下面我們再來看看幾種常見的頁面元素定位方式。
標(biāo)簽的 id
具有唯一性,就像人的身份證,假設(shè)有個 input
標(biāo)簽如下。
<input id="toolbar-search-input" autocomplete="off" type="text" value="" placeholder="C++難在哪里?">
我們可以通過 id
定位到它,由于 id
的唯一性,我們可以不用管其他的標(biāo)簽的內(nèi)容。
driver.find_element_by_id("toolbar-search-input")
name
指定標(biāo)簽的名稱,在頁面中可以不唯一。假設(shè)有個 meta
標(biāo)簽如下
<meta name="keywords" content="CSDN博客,CSDN學(xué)院,CSDN論壇,CSDN直播">
我們可以使用 find_element_by_name
定位到 meta
標(biāo)簽。
driver.find_element_by_name("keywords")
class
指定標(biāo)簽的類名,在頁面中可以不唯一。假設(shè)有個 div
標(biāo)簽如下
<div class="toolbar-search-container">
我們可以使用 find_element_by_class_name
定位到 div
標(biāo)簽。
driver.find_element_by_class_name("toolbar-search-container")
每個 tag
往往用來定義一類功能,所以通過 tag
來識別某個元素的成功率很低,每個頁面一般都用很多相同的 tag
,比如:/
、/
等。這里還是用上面的 div
作為例子。
<div class="toolbar-search-container">
我們可以使用 find_element_by_class_name
定位到 div
標(biāo)簽。
driver.find_element_by_tag_name("div")
xpath
是一種在 XML
文檔中定位元素的語言,它擁有多種定位方式,下面通過實例我們看一下它的幾種使用方式。
<html> <head>...<head/> <body> <div id="csdn-toolbar"> <div class="toolbar-inside"> <div class="toolbar-container"> <div class="toolbar-container-left">...div> <div class="toolbar-container-middle"> <div class="toolbar-search onlySearch"> <div class="toolbar-search-container"> <input id="toolbar-search-input" autocomplete="off" type="text" value="" placeholder="C++難在哪里?">
根據(jù)上面的標(biāo)簽需要定位 最后一行 input
標(biāo)簽,以下列出了四種方式,xpath
定位的方式多樣并不唯一,使用時根據(jù)情況進行解析即可。
# 絕對路徑(層級關(guān)系)定位driver.find_element_by_xpath( "/html/body/div/div/div/div[2]/div/div/input[1]")# 利用元素屬性定位driver.find_element_by_xpath( "http://*[@id="toolbar-search-input"]"))# 層級+元素屬性定位driver.find_element_by_xpath( "http://div[@id="csdn-toolbar"]/div/div/div[2]/div/div/input[1]")# 邏輯運算符定位driver.find_element_by_xpath( "http://*[@id="toolbar-search-input" and @autocomplete="off"]")
CSS
使用選擇器來為頁面元素綁定屬性,它可以較為靈活的選擇控件的任意屬性,一般定位速度比 xpath
要快,但使用起來略有難度。
CSS
選擇器常見語法:
方法 | 例子 | 描述 |
---|---|---|
.class | .toolbar-search-container | 選擇 class = "toolbar-search-container" 的所有元素 |
#id | #toolbar-search-input | 選擇 id = "toolbar-search-input" 的元素 |
* | * | 選擇所有元素 |
element | input | 選擇所有 元素 |
element>element | div>input | 選擇父元素為 的所有 元素 |
element+element | div+input | 選擇同一級中在 之后的所有 元素 |
[attribute=value] | type="text" | 選擇 type = "text" 的所有元素 |
舉個簡單的例子,同樣定位上面實例中的 input
標(biāo)簽。
driver.find_element_by_css_selector("#toolbar-search-input")driver.find_element_by_css_selector("html>body>div>div>div>div>div>div>input")
link
專門用來定位文本鏈接,假如要定位下面這一標(biāo)簽。
<div class="practice-box" data-v-04f46969="">加入!每日一練div>
我們使用 find_element_by_link_text
并指明標(biāo)簽內(nèi)全部文本即可定位。
driver.find_element_by_link_text("加入!每日一練")
partial_link
翻譯過來就是“部分鏈接”,對于有些文本很長,這時候就可以只指定部分文本即可定位,同樣使用剛才的例子。
<div class="practice-box" data-v-04f46969="">加入!每日一練div>
我們使用 find_element_by_partial_link_text
并指明標(biāo)簽內(nèi)部分文本進行定位。
driver.find_element_by_partial_link_text("加入")
webdriver
提供 set_window_size()
方法來修改瀏覽器窗口的大小。
from selenium import webdriver# Chrome瀏覽器driver = webdriver.Chrome()driver.get("https://www.csdn.net/")# 設(shè)置瀏覽器瀏覽器的寬高為:600x800driver.set_window_size(600, 800)
也可以使用 maximize_window()
方法可以實現(xiàn)瀏覽器全屏顯示。
from selenium import webdriver# Chrome瀏覽器driver = webdriver.Chrome()driver.get("https://www.csdn.net/")# 設(shè)置瀏覽器瀏覽器的寬高為:600x800driver.maximize_window()
webdriver
提供 back
和 forward
方法來實現(xiàn)頁面的后退與前進。下面我們 ①進入CSDN首頁,②打開CSDN個人主頁,③back
返回到CSDN首頁,④ forward
前進到個人主頁。
from selenium import webdriverfrom time import sleepdriver = webdriver.Chrome()# 訪問CSDN首頁driver.get("https://www.csdn.net/")sleep(2)#訪問CSDN個人主頁driver.get("https://blog.csdn.net/qq_43965708")sleep(2)#返回(后退)到CSDN首頁driver.back()sleep(2)#前進到個人主頁driver.forward()
細心的讀者會發(fā)現(xiàn)第二次 get()
打開新頁面時,會在原來的頁面打開,而不是在新標(biāo)簽中打開。如果想的話也可以在新的標(biāo)簽頁中打開新的鏈接,但需要更改一下代碼,執(zhí)行 js
語句來打開新的標(biāo)簽。
# 在原頁面打開driver.get("https://blog.csdn.net/qq_43965708")# 新標(biāo)簽中打開js = "window.open("https://blog.csdn.net/qq_43965708")"driver.execute_script(js)
在一些特殊情況下我們可能需要刷新頁面來獲取最新的頁面數(shù)據(jù),這時我們可以使用 refresh()
來刷新當(dāng)前頁面。
# 刷新頁面driver.refresh()
在很多時候我們都需要用到窗口切換,比如:當(dāng)我們點擊注冊按鈕時,它一般會打開一個新的標(biāo)簽頁,但實際上代碼并沒有切換到最新頁面中,這時你如果要定位注冊頁面的標(biāo)簽就會發(fā)現(xiàn)定位不到,這時就需要將實際窗口切換到最新打開的那個窗口。我們先獲取當(dāng)前各個窗口的句柄,這些信息的保存順序是按照時間來的,最新打開的窗口放在數(shù)組的末尾,這時我們就可以定位到最新打開的那個窗口了。
# 獲取打開的多個窗口句柄windows = driver.window_handles# 切換到當(dāng)前最新打開的窗口driver.switch_to.window(windows[-1])
webdriver中的常見操作有:
方法 | 描述 |
---|---|
send_keys() | 模擬輸入指定內(nèi)容 |
clear() | 清除文本內(nèi)容 |
is_displayed() | 判斷該元素是否可見 |
get_attribute() | 獲取標(biāo)簽屬性值 |
size | 返回元素的尺寸 |
text | 返回元素文本 |
接下來還是用 CSDN 首頁為例,需要用到的就是搜素框和搜索按鈕。通過下面的例子就可以氣息的了解各個操作的用法了。
from selenium import webdriverdriver = webdriver.Chrome()driver.get("https://www.csdn.net/")sleep(2)# 定位搜索輸入框text_label = driver.find_element_by_xpath("http://*[@id="toolbar-search-input"]")# 在搜索框中輸入 Dream丶Killertext_label.send_keys("Dream丶Killer")sleep(2)# 清除搜索框中的內(nèi)容text_label.clear()# 輸出搜索框元素是否可見print(text_label.is_displayed())# 輸出placeholder的值print(text_label.get_attribute("placeholder"))# 定位搜索按鈕button = driver.find_element_by_xpath("http://*[@id="toolbar-search-button"]/span")# 輸出按鈕的大小print(button.size)# 輸出按鈕上的文本print(button.text)"""輸出內(nèi)容Truepython面試100問{"height": 32, "width": 28}搜索"""
在webdriver 中,鼠標(biāo)操作都封裝在ActionChains類中,常見方法如下:
方法 | 描述 |
---|---|
click() | 單擊左鍵 |
context_click() | 單擊右鍵 |
double_click() | 雙擊 |
drag_and_drop() | 拖動 |
move_to_element() | 鼠標(biāo)懸停 |
perform() | 執(zhí)行所有ActionChains中存儲的動作 |
模擬完成單擊鼠標(biāo)左鍵的操作,一般點擊進入子頁面等會用到,左鍵不需要用到 ActionChains
。
# 定位搜索按鈕button = driver.find_element_by_xpath("http://*[@id="toolbar-search-button"]/span")# 執(zhí)行單擊操作button.click()
鼠標(biāo)右擊的操作與左擊有很大不同,需要使用 ActionChains
。
from selenium.webdriver.common.action_chains import ActionChains# 定位搜索按鈕button = driver.find_element_by_xpath("http://*[@id="toolbar-search-button"]/span")# 右鍵搜索按鈕ActionChains(driver).context_click(button).perform()
模擬鼠標(biāo)雙擊操作。
# 定位搜索按鈕button = driver.find_element_by_xpath("http://*[@id="toolbar-search-button"]/span")# 執(zhí)行雙擊動作ActionChains(driver).double_click(button).perform()
模擬鼠標(biāo)拖動操作,該操作有兩個必要參數(shù),
# 定位要拖動的元素source = driver.find_element_by_xpath("xxx")# 定位目標(biāo)元素target = driver.find_element_by_xpath("xxx")# 執(zhí)行拖動動作ActionChains(driver).drag_and_drop(source, target).perform()
模擬懸停的作用一般是為了顯示隱藏的下拉框,比如 CSDN 主頁的收藏欄,我們看一下效果。
# 定位收藏欄collect = driver.find_element_by_xpath("http://*[@id="csdn-toolbar"]/div/div/div[3]/div/div[3]/a")# 懸停至收藏標(biāo)簽處ActionChains(driver).move_to_element(collect).perform()
webdriver
中 Keys
類幾乎提供了鍵盤上的所有按鍵方法,我們可以使用 send_keys + Keys
實現(xiàn)輸出鍵盤上的組合按鍵如 “Ctrl + C”、“Ctrl + V” 等。
from selenium.webdriver.common.keys import Keys# 定位輸入框并輸入文本driver.find_element_by_id("xxx").send_keys("Dream丶killer")# 模擬回車鍵進行跳轉(zhuǎn)(輸入內(nèi)容后) driver.find_element_by_id("xxx").send_keys(Keys.ENTER)# 使用 Backspace 來刪除一個字符driver.find_element_by_id("xxx").send_keys(Keys.BACK_SPACE)# Ctrl + A 全選輸入框中內(nèi)容driver.find_element_by_id("xxx").send_keys(Keys.CONTROL, "a")# Ctrl + C 復(fù)制輸入框中內(nèi)容driver.find_element_by_id("xxx").send_keys(Keys.CONTROL, "c")# Ctrl + V 粘貼輸入框中內(nèi)容driver.find_element_by_id("xxx").send_keys(Keys.CONTROL, "v")
其他常見鍵盤操作:
操作 | 描述 |
---|---|
Keys.F1 | F1鍵 |
Keys.SPACE | 空格 |
Keys.TAB | Tab鍵 |
Keys.ESCAPE | ESC鍵 |
Keys.ALT | Alt鍵 |
Keys.SHIFT | Shift鍵 |
Keys.ARROW_DOWN | 向下箭頭 |
Keys.ARROW_LEFT | 向左箭頭 |
Keys.ARROW_RIGHT | 向右箭頭 |
Keys.ARROW_UP | 向上箭頭 |
很多頁面都使用 ajax
技術(shù),頁面的元素不是同時被加載出來的,為了防止定位這些尚在加載的元素報錯,可以設(shè)置元素等來增加腳本的穩(wěn)定性。webdriver
中的等待分為 顯式等待 和 隱式等待。
顯式等待:設(shè)置一個超時時間,每個一段時間就去檢測一次該元素是否存在,如果存在則執(zhí)行后續(xù)內(nèi)容,如果超過最大時間(超時時間)則拋出超時異常(TimeoutException
)。顯示等待需要使用 WebDriverWait
,同時配合 until
或 not until
。下面詳細講解一下。
WebDriverWait(driver, timeout, poll_frequency=0.5, ignored_exceptions=None)
driver
:瀏覽器驅(qū)動timeout
:超時時間,單位秒poll_frequency
:每次檢測的間隔時間,默認(rèn)為0.5秒ignored_exceptions
:指定忽略的異常,如果在調(diào)用 until
或 until_not
的過程中拋出指定忽略的異常,則不中斷代碼,默認(rèn)忽略的只有 NoSuchElementException
。until(method, message=’ ‘)
until_not(method, message=’ ")
method
:指定預(yù)期條件的判斷方法,在等待期間,每隔一段時間調(diào)用該方法,判斷元素是否存在,直到元素出現(xiàn)。until_not
正好相反,當(dāng)元素消失或指定條件不成立,則繼續(xù)執(zhí)行后續(xù)代碼message
: 如果超時,拋出 TimeoutException
,并顯示 message
中的內(nèi)容method
中的預(yù)期條件判斷方法是由 expected_conditions
提供,下面列舉常用方法。
先定義一個定位器
from selenium.webdriver.common.by import Byfrom selenium import webdriverdriver = webdriver.Chrome()locator = (By.ID, "kw")element = driver.find_element_by_id("kw")
方法 | 描述 |
---|---|
title_is(‘百度一下’) | 判斷當(dāng)前頁面的 title 是否等于預(yù)期 |
title_contains(‘百度’) | 判斷當(dāng)前頁面的 title 是否包含預(yù)期字符串 |
presence_of_element_located(locator) | 判斷元素是否被加到了 dom 樹里,并不代表該元素一定可見 |
visibility_of_element_located(locator) | 判斷元素是否可見,可見代表元素非隱藏,并且元素的寬和高都不等于0 |
visibility_of(element) | 跟上一個方法作用相同,但傳入?yún)?shù)為 element |
text_to_be_present_in_element(locator , ‘百度’) | 判斷元素中的 text 是否包含了預(yù)期的字符串 |
text_to_be_present_in_element_value(locator , ‘某值’) | 判斷元素中的 value 屬性是否包含了預(yù)期的字符串 |
frame_to_be_available_and_switch_to_it(locator) | 判斷該 frame 是否可以 switch 進去,True 則 switch 進去,反之 False |
invisibility_of_element_located(locator) | 判斷元素中是否不存在于 dom 樹或不可見 |
element_to_be_clickable(locator) | 判斷元素中是否可見并且是可點擊的 |
staleness_of(element) | 等待元素從 dom 樹中移除 |
element_to_be_selected(element) | 判斷元素是否被選中,一般用在下拉列表 |
element_selection_state_to_be(element, True) | 判斷元素的選中狀態(tài)是否符合預(yù)期,參數(shù) element,第二個參數(shù)為 True/False |
element_located_selection_state_to_be(locator, True) | 跟上一個方法作用相同,但傳入?yún)?shù)為 locator |
alert_is_present() | 判斷頁面上是否存在 alert |
下面寫一個簡單的例子,這里定位一個頁面不存在的元素,拋出的異常信息正是我們指定的內(nèi)容。
from selenium import webdriverfrom selenium.webdriver.support.ui import WebDriverWaitfrom selenium.webdriver.support import expected_conditions as ECfrom selenium.webdriver.common.by import Bydriver = webdriver.Chrome()element = WebDriverWait(driver, 5, 0.5).until( EC.presence_of_element_located((By.ID, "kw")), message="超時啦!")
隱式等待也是指定一個超時時間,如果超出這個時間指定元素還沒有被加載出來,就會拋出 NoSuchElementException
異常。
除了拋出的異常不同外,還有一點,隱式等待是全局性的,即運行過程中,如果元素可以定位到,它不會影響代碼運行,但如果定位不到,則它會以輪詢的方式不斷地訪問元素直到元素被找到,若超過指定時間,則拋出異常。
使用 implicitly_wait()
來實現(xiàn)隱式等待,使用難度相對于顯式等待要簡單很多。
示例:打開個人主頁,設(shè)置一個隱式等待時間 5s,通過 id
定位一個不存在的元素,最后打印 拋出的異常 與 運行時間。
from selenium import webdriverfrom time import timedriver = webdriver.Chrome()driver.get("https://blog.csdn.net/qq_43965708")start = time()driver.implicitly_wait(5)try: driver.find_element_by_id("kw")except Exception as e: print(e) print(f"耗時:{time()-start}")
代碼運行到 driver.find_element_by_id("kw")
這句之后觸發(fā)隱式等待,在輪詢檢查 5s 后仍然沒有定位
文章版權(quán)歸作者所有,未經(jīng)允許請勿轉(zhuǎn)載,若此文章存在違規(guī)行為,您可以聯(lián)系管理員刪除。
轉(zhuǎn)載請注明本文地址:http://systransis.cn/yun/122210.html
摘要:時間永遠都過得那么快,一晃從年注冊,到現(xiàn)在已經(jīng)過去了年那些被我藏在收藏夾吃灰的文章,已經(jīng)太多了,是時候把他們整理一下了。那是因為收藏夾太亂,橡皮擦給設(shè)置私密了,不收拾不好看呀。 ...
摘要:學(xué)習(xí)筆記七數(shù)學(xué)形態(tài)學(xué)關(guān)注的是圖像中的形狀,它提供了一些方法用于檢測形狀和改變形狀。學(xué)習(xí)筆記十一尺度不變特征變換,簡稱是圖像局部特征提取的現(xiàn)代方法基于區(qū)域圖像塊的分析。本文的目的是簡明扼要地說明的編碼機制,并給出一些建議。 showImg(https://segmentfault.com/img/bVRJbz?w=900&h=385); 前言 開始之前,我們先來看這樣一個提問: pyth...
摘要:且本小白也親身經(jīng)歷了整個從小白到爬蟲初入門的過程,因此就斗膽在上開一個欄目,以我的圖片爬蟲全實現(xiàn)過程為例,以期用更簡單清晰詳盡的方式來幫助更多小白應(yīng)對更大多數(shù)的爬蟲實際問題。 前言: 一個月前,博主在學(xué)過python(一年前)、會一點網(wǎng)絡(luò)(能按F12)的情況下,憑著熱血和興趣,開始了pyth...
摘要:楚江數(shù)據(jù)是專業(yè)的互聯(lián)網(wǎng)數(shù)據(jù)技術(shù)服務(wù),現(xiàn)整理出零基礎(chǔ)如何學(xué)爬蟲技術(shù)以供學(xué)習(xí),。本文來源知乎作者路人甲鏈接楚江數(shù)據(jù)提供網(wǎng)站數(shù)據(jù)采集和爬蟲軟件定制開發(fā)服務(wù),服務(wù)范圍涵蓋社交網(wǎng)絡(luò)電子商務(wù)分類信息學(xué)術(shù)研究等。 楚江數(shù)據(jù)是專業(yè)的互聯(lián)網(wǎng)數(shù)據(jù)技術(shù)服務(wù),現(xiàn)整理出零基礎(chǔ)如何學(xué)爬蟲技術(shù)以供學(xué)習(xí),http://www.chujiangdata.com。 第一:Python爬蟲學(xué)習(xí)系列教程(來源于某博主:htt...
閱讀 3166·2023-04-25 18:22
閱讀 2410·2021-11-17 09:33
閱讀 3330·2021-10-11 10:59
閱讀 3246·2021-09-22 15:50
閱讀 2825·2021-09-10 10:50
閱讀 869·2019-08-30 15:53
閱讀 456·2019-08-29 11:21
閱讀 2925·2019-08-26 13:58