selenium動(dòng)態(tài)數(shù)據(jù)獲取的方法實(shí)現(xiàn)

89542767 發(fā)布于2022-10-13 23:00 / 529人閱讀

　　這篇文章主要是闡述了selenium可視化數(shù)據(jù)抓取有效的方法實(shí)現(xiàn)，文中根據(jù)舉例編碼講到的十分詳盡，對(duì)大家學(xué)習(xí)培訓(xùn)還是工作具有很強(qiáng)的參照學(xué)習(xí)培訓(xùn)使用價(jià)值，需求的小伙伴們下邊伴隨著小編就來互相學(xué)習(xí)了解一下吧。

　　Selenium是一個(gè)自動(dòng)化技術(shù)檢測(cè)工具，運(yùn)用它能夠推動(dòng)電腦瀏覽器實(shí)行特殊動(dòng)作，如鼠標(biāo)點(diǎn)擊、下拉框等操作，同時(shí)也可以獲取電腦瀏覽器現(xiàn)階段獲得界面的程序代碼，保證由此可見即可獲得。對(duì)于有些JavaScript動(dòng)態(tài)性3D渲染的頁(yè)面來說，此種抓取方式非常有效。接下來，就讓我們來感受一下它的強(qiáng)大之處吧。

　　webdriver的安裝

　　????selenium安裝

　　首先，我們使用selenium進(jìn)行測(cè)試，所以我們得安裝selenium庫(kù)。

　　pip install selenium

　　????驅(qū)動(dòng)安裝

　　webdriver是瀏覽器對(duì)應(yīng)的驅(qū)動(dòng)，我們使用的的瀏覽器有三種谷歌Chrome、微軟Microsoft Edge、還有一個(gè)火狐Firefox，但是我們經(jīng)常使用谷歌Chrome瀏覽器進(jìn)行測(cè)試。現(xiàn)在我們就以Chrome瀏覽器為例下載它對(duì)應(yīng)的chromedriver。

　　官網(wǎng)：http://chromedriver.storage.googleapis.com/index.html

　　注意：

　　我們下載chromedriver驅(qū)動(dòng)時(shí)，我們要查明瀏覽器的版本，要對(duì)應(yīng)相應(yīng)的版本號(hào)進(jìn)行下載，否則會(huì)報(bào)錯(cuò)。禁止Google瀏覽器更新服務(wù)，可以上網(wǎng)查教程。

　　????基本使用

　　????查找節(jié)點(diǎn)

　　Selenium可以驅(qū)動(dòng)瀏覽器完成各種操作，比如填充表單、模擬點(diǎn)擊等。比如，我們想要完成向某個(gè)輸入框輸入文字的操作，總需要知道這個(gè)輸入框在哪里吧？而Selenium提供了一系列查找節(jié)點(diǎn)的方法，我們可以用這些方法來獲取想要的節(jié)點(diǎn)，以便下一步執(zhí)行一些動(dòng)作或者提取信息。

　　獲取節(jié)點(diǎn)的方法：

　　find_element_by_id
　　find_element_by_name
　　find_element_by_xpath
　　find_element_by_link_text專門用來定位超鏈接文本（標(biāo)簽）全匹配
　　find_element_by_partial_link_text模糊匹配
　　find_element_by_tag_name
　　find_element_by_class_name
　　find_element_by_css_selector

　　給個(gè)示例

　　from selenium import webdriver
　　browser=webdriver.Chrome()
　　browser.get('https://www.baidu.com')
　　input=browser.find_element_by_id('kw')
　　input.send_keys('Python')
　　browser.find_element_by_id('su').click()
　　#提取頁(yè)面
　　print(browser.page_source.encode('utf-8'))
　　#提取cookie
　　print(browser.get_cookies())
　　#提取當(dāng)前請(qǐng)求地址
　　print(browser.current_url)
　　browser.close()

　　運(yùn)行代碼后發(fā)現(xiàn)，會(huì)自動(dòng)彈出一個(gè)Chrome瀏覽器。瀏覽器首先會(huì)跳轉(zhuǎn)到百度，然后在搜索框中輸入Python，接著跳轉(zhuǎn)到搜索結(jié)果頁(yè)

　　注：當(dāng)我們的chromedriver驅(qū)動(dòng)沒有放置到Chrome瀏覽器路徑時(shí)，我們可以使用以下來申明瀏覽器對(duì)象。

  　browser=webdriver.Chrome(executable_path="chromedriver安裝路徑")

　　方法總結(jié)：

　　brower.get(url)：跳轉(zhuǎn)當(dāng)前url鏈接。

　　browser.find_element_by_id('id屬性值')：定位到id屬性值。

　　send_keys('輸入關(guān)鍵字')：定位到輸入框后輸入。

　　find_element_by_id('id屬性值').click()：定位到id屬性值后點(diǎn)擊。

　　browser.page_source.encode('utf-8')：獲取當(dāng)前頁(yè)面的源碼。

　　browser.get_cookies()：提取cookies。

　　browser.current_url：獲取當(dāng)前頁(yè)面的url。

　　brower.close()：關(guān)閉瀏覽器。

　　????執(zhí)行JavaScript

　　對(duì)于某些操作，Selenium API并沒有提供。比如，下拉進(jìn)度條，它可以直接模擬運(yùn)行JavaScript，此時(shí)使用execute_script()方法即可實(shí)現(xiàn)，代碼如下：

　　#document.body.scrollHeight獲取頁(yè)面高度
　　from selenium import webdriver
　　browser=webdriver.Chrome()
　　browser.get('https://36kr.com/')
　　#下拉邊框一次性下拉
　　browser.execute_script('window.scrollTo(0,document.body.scrollHeight)')
　　#慢慢的下拉
　　for i in range(1,9):
　　time.sleep(random.randint(100,300)/1000)
　　browser.execute_script('window.scrollTo(0,{})'.format(i*700))

　　這里就利用execute_script()方法將進(jìn)度條下拉到最底部。為了模擬人為活動(dòng)，我們調(diào)節(jié)了下拉的緩沖時(shí)間。

　　我們使用瀏覽器的控制臺(tái)輸入以下代碼也能運(yùn)行。

　　window.scrollTo(0,document.body.scrollHeight)

　　切換Frame

　　我們知道網(wǎng)頁(yè)中有一種節(jié)點(diǎn)叫作iframe，也就是子Frame，相當(dāng)于頁(yè)面的子頁(yè)面，它的結(jié)構(gòu)和外部網(wǎng)頁(yè)的結(jié)構(gòu)完全一致。Selenium打開頁(yè)面后，它默認(rèn)是在父級(jí)Frame里面操作，而此時(shí)如果頁(yè)面中還有子Frame，它是不能獲取到子Frame里面的節(jié)點(diǎn)的。這時(shí)就需要使用switch_to.frame()方法來切換Frame。示例如下：

　　browser.get('https://www.douban.com/')
　　login_iframe=browser.find_element_by_xpath('//div[ class="login"]/iframe')
　　browser.switch_to.frame(login_iframe)
　　browser.find_element_by_class_name('account-tab-account').click()
　　browser.find_element_by_id('username').send_keys('123123123')

　　首先我們要定位到iframe，然后用switch_to.frame()方法來切換Frame，這時(shí)我們就可以定位到子Frame進(jìn)行有關(guān)操作了。

　　????前進(jìn)后退

　　平常使用瀏覽器時(shí)都有前進(jìn)和后退功能，Selenium也可以完成這個(gè)操作，它使用back()方法后退，使用forward()方法前進(jìn)。示例如下：

　　import time
　　from selenium import webdriver
　　browser=webdriver.Chrome()
　　browser.get('https://www.baidu.com/')
　　browser.get('https://www.taobao.com/')
　　browser.get('https://www.python.org/')
　　browser.back()
　　time.sleep(1)
　　browser.forward()
　　browser.close()

　　這里我們連續(xù)訪問3個(gè)頁(yè)面，然后調(diào)用back()方法回到第二個(gè)頁(yè)面，接下來再調(diào)用forward()方法又可以前進(jìn)到第三個(gè)頁(yè)面。

　　????選項(xiàng)卡管理

　　在訪問網(wǎng)頁(yè)的時(shí)候，會(huì)開啟一個(gè)個(gè)選項(xiàng)卡。在Selenium中，我們也可以對(duì)選項(xiàng)卡進(jìn)行操作。示例如下：

　　import time
　　from selenium import webdriver
　　browser=webdriver.Chrome()
　　browser.get('https://www.baidu.com')
　　browser.execute_script('window.open()')
　　print(browser.window_handles)
　　browser.switch_to_window(browser.window_handles[1])
　　browser.get('https://www.taobao.com')
　　time.sleep(1)
　　browser.switch_to_window(browser.window_handles[0])
　　browser.get('https://python.org')

　　這里我們先跳轉(zhuǎn)到百度再打開一個(gè)空白選項(xiàng)卡打印選項(xiàng)卡編號(hào)，再跳轉(zhuǎn)到第二個(gè)選項(xiàng)卡也就是這個(gè)空白選項(xiàng)卡打開淘寶，休息一秒，再跳轉(zhuǎn)到第一個(gè)選項(xiàng)卡打開python官網(wǎng)。

　　????配置操作

　　selenium有很多配置，下面我舉幾個(gè)常見的。

　　options=webdriver.ChromeOptions()
　　#無頭模式
　　option.add_argument("-headless")
　　#設(shè)置代理
　　options.add_argument('proxy-server='+'192.168.0.28:808')
　　#將瀏覽器最大化顯示
　　browser.maximize_window()
　　#設(shè)置寬高
　　browser.set_window_size(480,800)
　　#通過js新打開一個(gè)窗口
　　driver.execute_script('window.open("https://www.baidu.com");')
　　browser=webdriver.Chrome(chrome_options=options)
　　繞過檢測(cè)
　　繞過檢測(cè)對(duì)于一些網(wǎng)站的自動(dòng)化反爬很管用。
　　#設(shè)置屏蔽
　　options=webdriver.ChromeOptions()
　　options.add_argument('--disable-blink-features=AutomationControlled')
　　browsers=webdriver.Chrome(chrome_options=options)
　　browsers.get('https://bot.sannysoft.com/')
　　網(wǎng)站：https://bot.sannysoft.com/

　　我們沒設(shè)置繞過檢測(cè)

　　我們?cè)O(shè)置了繞過檢測(cè)后

　　到此為止，小編就給大家介紹完畢了，希望可以為大家?guī)韼椭?/p>

云服務(wù)器 GPU云服務(wù)器 js 獲取后臺(tái)數(shù)據(jù)的方法動(dòng)態(tài)html的實(shí)現(xiàn) php獲取變量的方法動(dòng)態(tài)數(shù)據(jù)獲取

文章版權(quán)歸作者所有，未經(jīng)允許請(qǐng)勿轉(zhuǎn)載,若此文章存在違規(guī)行為，您可以聯(lián)系管理員刪除。

轉(zhuǎn)載請(qǐng)注明本文地址：http://systransis.cn/yun/128004.html

發(fā)表評(píng)論

登陸后可評(píng)論

0條評(píng)論

89542767

男|高級(jí)講師

我要關(guān)注我要私信

TA的文章

pythontime控制模塊時(shí)間格式與結(jié)構(gòu)型時(shí)長(zhǎng)詳細(xì)說明

閱讀 923·2023-01-14 11:38
OpenMV與JSON編碼問題分析

閱讀 896·2023-01-14 11:04
python中的特性管理模式詳細(xì)說明

閱讀 756·2023-01-14 10:48
Python運(yùn)用fastapi完成上傳圖片

閱讀 2056·2023-01-14 10:34
pythonopencv圖象高通濾波和低通濾波器的范例編碼

閱讀 961·2023-01-14 10:24
Python根據(jù)ssh遠(yuǎn)程桌面連接Mysql數(shù)據(jù)庫(kù)操作

閱讀 840·2023-01-14 10:18
本文輕輕松松掌握Python中類的繼承

閱讀 510·2023-01-14 10:09
python中wordcloud組裝方式總結(jié)

閱讀 588·2023-01-14 10:02

成人国产在线小视频_日韩寡妇人妻调教在线播放_色成人www永久在线观看_2018国产精品久久_亚洲欧美高清在线30p_亚洲少妇综合一区_黄色在线播放国产_亚洲另类技巧小说校园_国产主播xx日韩_a级毛片在线免费

資訊專欄INFORMATION COLUMN

上云采購(gòu)季！| 2核2G4M爆款云服務(wù)器低至59元/年，更有多臺(tái)、長(zhǎng)期優(yōu)惠，快來選購(gòu)！

selenium動(dòng)態(tài)數(shù)據(jù)獲取的方法實(shí)現(xiàn)

相關(guān)文章

Python3網(wǎng)絡(luò)爬蟲實(shí)戰(zhàn)---37、動(dòng)態(tài)渲染頁(yè)面抓取:Selenium

動(dòng)態(tài)HTML介紹 & Selenium PhantomJS

Python 從零開始爬蟲(八)——動(dòng)態(tài)爬取解決方案之 selenium

**【小白+python+selenium庫(kù)+圖片爬取+反爬+資料】超詳細(xì)新手實(shí)現(xiàn)（01）webdriv**

在headless模式下運(yùn)行selenium

發(fā)表評(píng)論

0條評(píng)論

89542767

男|高級(jí)講師

TA的文章

pythontime控制模塊時(shí)間格式與結(jié)構(gòu)型時(shí)長(zhǎng)詳細(xì)說明

OpenMV與JSON編碼問題分析

python中的特性管理模式詳細(xì)說明

Python運(yùn)用fastapi完成上傳圖片

pythonopencv圖象高通濾波和低通濾波器的范例編碼

Python根據(jù)ssh遠(yuǎn)程桌面連接Mysql數(shù)據(jù)庫(kù)操作

本文輕輕松松掌握Python中類的繼承

python中wordcloud組裝方式總結(jié)

最新活動(dòng)

資訊專欄INFORMATION COLUMN

上云采購(gòu)季！| 2核2G4M爆款云服務(wù)器低至59元/年，更有多臺(tái)、長(zhǎng)期優(yōu)惠，快來選購(gòu)！

selenium動(dòng)態(tài)數(shù)據(jù)獲取的方法實(shí)現(xiàn)

相關(guān)文章

發(fā)表評(píng)論

0條評(píng)論

男|高級(jí)講師

TA的文章

最新活動(dòng)

上云采購(gòu)季！| 2核2G4M爆款云服務(wù)器低至59元/年，更有多臺(tái)、長(zhǎng)期優(yōu)惠，快來選購(gòu)！