使用 Selenium 抓取網(wǎng)頁內(nèi)容和模擬登入

mylxsw 發(fā)布于2019-06-27 10:27 / 1634人閱讀

摘要：傳統(tǒng)的無法執(zhí)行頁面中的瀏覽器腳本，并且在抓取一些對(duì)爬蟲有限制的網(wǎng)頁時(shí)，往往要設(shè)定詳細(xì)的來突破限制，編寫起來較為復(fù)雜。直接使用瀏覽器運(yùn)行，像真正的用戶在操作。支持以下方式進(jìn)行選擇元素各種庫對(duì)情況的檢測(cè)方法

傳統(tǒng)的 cURL 無法執(zhí)行頁面中的瀏覽器腳本，并且在抓取一些對(duì)爬蟲有限制的網(wǎng)頁時(shí)，往往要設(shè)定詳細(xì)的 http header 來突破限制，編寫起來較為復(fù)雜。

Selenium簡(jiǎn)介：

Selenium 是一個(gè)用于Web應(yīng)用程序測(cè)試的工具（用處也不僅僅是測(cè)試）。
Selenium 直接使用瀏覽器運(yùn)行，像真正的用戶在操作。支持較多的瀏覽器。

組件

Selenium IDE：Firefox插件，有錄制腳本的功能。支持自動(dòng)錄制動(dòng)作和自動(dòng)生成其他語言的自動(dòng)化腳本。

Selenium Remote Control (RC) ：支持多種平臺(tái)(Windows，Linux)和多瀏覽器(IE，F(xiàn)irefox，Opera，Safari，Chrome)，可以用多種語言(Java，Ruby，Python，Perl，PHP，C#)編寫用例。

Selenium Grid ：允許Selenium-RC 針對(duì)規(guī)模龐大的測(cè)試案例集或者需要在不同環(huán)境中運(yùn)行的測(cè)試案例集進(jìn)行擴(kuò)展。

實(shí)例：驅(qū)動(dòng) chrome 模擬登入淘寶，獲取頁面信息

1.前往項(xiàng)目主頁：SeleniumHQ 下載

Selenium Server (formerly the Selenium RC Server)

Third Party Browser Drivers NOT DEVELOPED by seleniumhq

（選擇chrome的driver）

Third Party Language Bindings NOT DEVELOPED by seleniumhq

（選擇PHP by Adam Goucher (SeHQ recommended php client)）

2.打開 selenium

java -jar path_to_selenium.jar 
[-timeout 0] 
[-Dwebdriver.server.session.timeout=0] 
-Dwebdriver.chrome.driver="path_to_chrome_driver"
-browser [-timeout=0] [-browserTimeout=0]
browserName=chrome,[timeout=0]

如需長(zhǎng)時(shí)間運(yùn)行請(qǐng)酌情設(shè)置各 "[ ]" 中的超時(shí)時(shí)間

3.PHP代碼

execute(array("script" => "return (document.readyState != "complete")", "args" => array())));
}  //該函數(shù)會(huì)把腳本掛起直到等待到Ajax結(jié)束

require_once "webdriver/PHPWebDriver/__init__.php";
// 引入 selenium 的PHP封裝函數(shù)庫
// 下載地址：https://github.com/Element-34/php-webdriver
// 文檔中有各種操作瀏覽器方法，如獲取所有cookie等

$wd_host = "http://127.0.0.1:4444/wd/hub";
$web_driver = new PHPWebDriver_WebDriver($wd_host);

$session = $web_driver->session("chrome");

//設(shè)置超時(shí)時(shí)間
$session->implicitlyWait(5);
$session->setScriptTimeout(5);
$session->setPageLoadTimeout(15);

//打開連接
$session->open("http://login.m.taobao.com/login.htm?tpl_redirect_url=http://m.taobao.com");

//輸入驗(yàn)證碼用，如果需要的話
sleep(5);

//請(qǐng)?jiān)O(shè)置好帳號(hào)密碼
$session->element("css selector", "input[name=TPL_username]")->value(array("value" => str_split("your_username")));
$session->element("css selector", "input[name=TPL_password]")->value(array("value" => str_split("your_password")));

//模擬點(diǎn)擊登入按鈕
$elements = $session->element("css selector", ".c-btn-oran-big")->click();

//打開 m.taobao.com，此時(shí)已獲取到cookie
$session->open("http://m.taobao.com/");

//等待ajax加載完畢
waitForAjax();

$elements = $session->element("css selector", "body")->text();
//獲得了登入后ajax執(zhí)行完畢時(shí)的頁面內(nèi)容
?>

之后便可以按需對(duì) $session 實(shí)例進(jìn)行 element 方法的各種操作。

支持以下方式進(jìn)行選擇元素

xpath

link text

partial link text

name

tag name

class name

css selector

PS:各種庫對(duì)Ajax情況的檢測(cè)方法

jQuery: "jQuery.active"

Prototype: "Ajax.activeRequestCount"

Dojo: "dojo.io.XMLHTTPTransport.inFlight.length"

GPU云服務(wù)器云服務(wù)器 java 網(wǎng)頁內(nèi)容抓取用asp抓取網(wǎng)頁內(nèi)容 selenium模擬webrtc攝像頭模擬登入

文章版權(quán)歸作者所有，未經(jīng)允許請(qǐng)勿轉(zhuǎn)載,若此文章存在違規(guī)行為，您可以聯(lián)系管理員刪除。

轉(zhuǎn)載請(qǐng)注明本文地址：http://systransis.cn/yun/20604.html

發(fā)表評(píng)論

登陸后可評(píng)論

0條評(píng)論

mylxsw

男|高級(jí)講師

我要關(guān)注我要私信

TA的文章

RAKsmart：爆款產(chǎn)品 $ 30秒殺，香港新增DDOS最高100G， VPS全場(chǎng)5折

閱讀 1421·2021-09-02 09:53
Sharktech：$129/月/2*E5-2678v3/64GB內(nèi)存/1TB NVMe硬盤/不限流

閱讀 2680·2021-07-29 13:50
iconfont在react中完整使用教程

閱讀 1727·2019-08-30 11:07
2019年5月所遇知識(shí)點(diǎn)整理

閱讀 1586·2019-08-30 11:00
flex布局的一些好帖子,你值得擁有

閱讀 1464·2019-08-29 14:00
你可能不知道的前端知識(shí)點(diǎn)

閱讀 1858·2019-08-29 12:52
CSS屬性中經(jīng)常出現(xiàn)的百分比

閱讀 2578·2019-08-29 11:11
Taro開發(fā)小程序填坑筆記（一）

閱讀 3432·2019-08-26 12:23

成人国产在线小视频_日韩寡妇人妻调教在线播放_色成人www永久在线观看_2018国产精品久久_亚洲欧美高清在线30p_亚洲少妇综合一区_黄色在线播放国产_亚洲另类技巧小说校园_国产主播xx日韩_a级毛片在线免费

資訊專欄INFORMATION COLUMN

上云采購季！| 2核2G4M爆款云服務(wù)器低至59元/年，更有多臺(tái)、長(zhǎng)期優(yōu)惠，快來選購！

使用 Selenium 抓取網(wǎng)頁內(nèi)容和模擬登入

相關(guān)文章

**使用 Selenium 進(jìn)行模擬登入和頁面內(nèi)容的獲取**

Python3網(wǎng)絡(luò)爬蟲實(shí)戰(zhàn)---37、動(dòng)態(tài)渲染頁面抓取:Selenium

**使用selenium模擬瀏覽器抓取淘寶商品美食信息**

從0-1打造最強(qiáng)性能Scrapy爬蟲集群

Python入門網(wǎng)絡(luò)爬蟲之精華版

發(fā)表評(píng)論

0條評(píng)論

mylxsw

男|高級(jí)講師

TA的文章

RAKsmart：爆款產(chǎn)品 $ 30秒殺，香港新增DDOS最高100G， VPS全場(chǎng)5折

Sharktech：$129/月/2*E5-2678v3/64GB內(nèi)存/1TB NVMe硬盤/不限流

iconfont在react中完整使用教程

2019年5月所遇知識(shí)點(diǎn)整理

flex布局的一些好帖子,你值得擁有

你可能不知道的前端知識(shí)點(diǎn)

CSS屬性中經(jīng)常出現(xiàn)的百分比

Taro開發(fā)小程序填坑筆記（一）

最新活動(dòng)

資訊專欄INFORMATION COLUMN

上云采購季！| 2核2G4M爆款云服務(wù)器低至59元/年，更有多臺(tái)、長(zhǎng)期優(yōu)惠，快來選購！

使用 Selenium 抓取網(wǎng)頁內(nèi)容和模擬登入

相關(guān)文章

發(fā)表評(píng)論

0條評(píng)論

男|高級(jí)講師

TA的文章

最新活動(dòng)

上云采購季！| 2核2G4M爆款云服務(wù)器低至59元/年，更有多臺(tái)、長(zhǎng)期優(yōu)惠，快來選購！