成人国产在线小视频_日韩寡妇人妻调教在线播放_色成人www永久在线观看_2018国产精品久久_亚洲欧美高清在线30p_亚洲少妇综合一区_黄色在线播放国产_亚洲另类技巧小说校园_国产主播xx日韩_a级毛片在线免费

資訊專欄INFORMATION COLUMN

QueryList 4.0 簡潔、優(yōu)雅、可擴展的PHP采集工具(爬蟲)

Astrian / 2409人閱讀

QueryList 簡介

QueryList是一套簡潔、優(yōu)雅、可擴展的PHP采集工具(爬蟲),基于phpQuery。

特性

擁有與jQuery完全相同的CSS3 DOM選擇器

擁有與jQuery完全相同的DOM操作API

擁有通用的列表采集方案

擁有強大的HTTP請求套件,輕松實現(xiàn)如:模擬登陸、偽造瀏覽器、HTTP代理等意復雜的網(wǎng)絡請求

擁有亂碼解決方案

擁有強大的內(nèi)容過濾功能,可使用jQuey選擇器來過濾內(nèi)容

擁有高度的模塊化設計,擴展性強

擁有富有表現(xiàn)力的API

擁有高質量文檔

擁有豐富的插件

擁有專業(yè)的問答社區(qū)和交流群

通過插件可以輕松實現(xiàn)諸如:

多線程采集

圖片本地化

模擬瀏覽器行為,如:提交Form表單

網(wǎng)絡爬蟲

.....

環(huán)境要求

PHP >= 7.0

如果你的PHP版本還停留在PHP5,或者不會使用Composer,你可以選擇使用QueryList3,QueryList3支持php5.3以及手動安裝。 QueryList3 文檔:http://v3.querylist.cc

安裝

通過Composer安裝:

composer require jaeger/querylist
使用 元素操作

采集「昵圖網(wǎng)」所有圖片地址

QueryList::get("http://www.nipic.com")->find("img")->attrs("src");

采集百度搜索結果

$ql = QueryList::get("http://www.baidu.com/s?wd=QueryList");

$ql->find("title")->text(); // 獲取網(wǎng)站標題
$ql->find("meta[name=keywords]")->content; // 獲取網(wǎng)站頭部關鍵詞

$ql->find("h3>a")->texts(); //獲取搜索結果標題列表
$ql->find("h3>a")->attrs("href"); //獲取搜索結果鏈接列表

$ql->find("img")->src; //獲取第一張圖片的鏈接地址
$ql->find("img:eq(1)")->src; //獲取第二張圖片的鏈接地址
$ql->find("img")->eq(2)->src; //獲取第三張圖片的鏈接地址
// 遍歷所有圖片
$ql->find("img")->map(function($img){
    echo $img->alt;  //打印圖片的alt屬性
});

更多用法

$ql->find("#head")->append("
追加內(nèi)容
")->find("div")->htmls(); $ql->find(".two")->children("img")->attrs("alt"); //獲取class為two元素下的所有img孩子節(jié)點 //遍歷class為two元素下的所有孩子節(jié)點 $data = $ql->find(".two")->children()->map(function ($item){ //用is判斷節(jié)點類型 if($item->is("a")){ return $item->text(); }elseif($item->is("img")) { return $item->alt; } }); $ql->find("a")->attr("href", "newVal")->removeClass("className")->html("newHtml")->... $ql->find("div > p")->add("div > ul")->filter(":has(a)")->find("p:first")->nextAll()->andSelf()->... $ql->find("div.old")->replaceWith( $ql->find("div.new")->clone())->appendTo(".trash")->prepend("Deleted")->...
列表采集

采集百度搜索結果列表的標題和鏈接:

$data = QueryList::get("http://www.baidu.com/s?wd=QueryList")
    // 設置采集規(guī)則
    ->rules([ 
        "title"=>array("h3","text"),
        "link"=>array("h3>a","href")
    ])
    ->query()->getData();

print_r($data->all());

采集結果:

Array
(
    [0] => Array
        (
            [title] => QueryList|基于phpQuery的無比強大的PHP采集工具
            [link] => http://www.baidu.com/link?url=GU_YbDT2IHk4ns1tjG2I8_vjmH0SCJEAPuuZN
        )
    [1] => Array
        (
            [title] => PHP 用QueryList抓取網(wǎng)頁內(nèi)容 - wb145230 - 博客園
            [link] => http://www.baidu.com/link?url=zn0DXBnrvIF2ibRVW34KcRVFG1_bCdZvqvwIhUqiXaS
        )
    [2] => Array
        (
            [title] => 介紹- QueryList指導文檔
            [link] => http://www.baidu.com/link?url=pSypvMovqS4v2sWeQo5fDBJ4EoYhXYi0Lxx
        )
        //...
)
編碼轉換
// 輸出編碼:UTF-8,輸入編碼:GB2312
QueryList::get("https://top.etao.com")->encoding("UTF-8","GB2312")->find("a")->texts();

// 輸出編碼:UTF-8,輸入編碼:自動識別
QueryList::get("https://top.etao.com")->encoding("UTF-8")->find("a")->texts();
HTTP網(wǎng)絡操作

攜帶cookie登錄新浪微博

//采集新浪微博需要登錄才能訪問的頁面
$ql = QueryList::get("http://weibo.com","param1=testvalue & params2=somevalue",[
    "headers" => [
        //填寫從瀏覽器獲取到的cookie
        "Cookie" => "SINAGLOBAL=546064; wb_cmtLike_2112031=1; wvr=6;...."
    ]
]);
//echo $ql->getHtml();
echo $ql->find("title")->text();
//輸出: 我的首頁 微博-隨時隨地發(fā)現(xiàn)新鮮事

使用Http代理

$urlParams = ["param1" => "testvalue","params2" => "somevalue"];
$opts = [
    // 設置http代理
    "proxy" => "http://222.141.11.17:8118",
    //設置超時時間,單位:秒
    "timeout" => 30,
     // 偽造http頭
    "headers" => [
        "Referer" => "https://querylist.cc/",
        "User-Agent" => "testing/1.0",
        "Accept"     => "application/json",
        "X-Foo"      => ["Bar", "Baz"],
        "Cookie"    => "abc=111;xxx=222"
    ]
];
$ql->get("http://httpbin.org/get",$urlParams,$opts);
// echo $ql->getHtml();

模擬登錄

// 用post登錄
$ql = QueryList::post("http://xxxx.com/login",[
    "username" => "admin",
    "password" => "123456"
])->get("http://xxx.com/admin");
//采集需要登錄才能訪問的頁面
$ql->get("http://xxx.com/admin/page");
//echo $ql->getHtml();
Form表單操作

模擬登陸GitHub

// 獲取QueryList實例
$ql = QueryList::getInstance();
//獲取到登錄表單
$form = $ql->get("https://github.com/login")->find("form");

//填寫GitHub用戶名和密碼
$form->find("input[name=login]")->val("your github username or email");
$form->find("input[name=password]")->val("your github password");

//序列化表單數(shù)據(jù)
$fromData = $form->serializeArray();
$postData = [];
foreach ($fromData as $item) {
    $postData[$item["name"]] = $item["value"];
}

//提交登錄表單
$actionUrl = "https://github.com".$form->attr("action");
$ql->post($actionUrl,$postData);
//判斷登錄是否成功
// echo $ql->getHtml();
$userName = $ql->find(".header-nav-current-user>.css-truncate-target")->text();
if($userName)
{
    echo "登錄成功!歡迎你:".$userName;
}else{
    echo "登錄失敗!";
}
Bind功能擴展

自定義擴展一個myHttp方法:

$ql = QueryList::getInstance();

//綁定一個myHttp方法到QueryList對象
$ql->bind("myHttp",function ($url){
    $html = file_get_contents($url);
    $this->setHtml($html);
    return $this;
});

//然后就可以通過注冊的名字來調(diào)用
$data = $ql->myHttp("https://toutiao.io")->find("h3 a")->texts();
print_r($data->all());

或者把實現(xiàn)體封裝到class,然后這樣綁定:

$ql->bind("myHttp",function ($url){
    return new MyHttp($this,$url);
});
插件使用

使用CURL多線程插件,多線程采集GitHub排行榜:

$ql = QueryList::use(CurlMulti::class);
$ql->curlMulti([
    "https://github.com/trending/php",
    "https://github.com/trending/go",
    //.....more urls
])
 // 每個任務成功完成調(diào)用此回調(diào)
 ->success(function (QueryList $ql,CurlMulti $curl,$r){
    echo "Current url:{$r["info"]["url"]} 
";
    $data = $ql->find("h3 a")->texts();
    print_r($data->all());
})
 // 每個任務失敗回調(diào)
->error(function ($errorInfo,CurlMulti $curl){
    echo "Current url:{$errorInfo["info"]["url"]} 
";
    print_r($errorInfo["error"]);
})
->start([
    // 最大并發(fā)數(shù)
    "maxThread" => 10,
    // 錯誤重試次數(shù)
    "maxTry" => 3,
]);

GitHub:https://github.com/jae-jae/QueryList 歡迎Star!

文章版權歸作者所有,未經(jīng)允許請勿轉載,若此文章存在違規(guī)行為,您可以聯(lián)系管理員刪除。

轉載請注明本文地址:http://systransis.cn/yun/25950.html

相關文章

  • Laravel 框架中常用 PHP 語法

    摘要:更多參考自動加載機制命名空間命名沖突在團隊協(xié)作引入第三方依賴代碼時,往往可能會出現(xiàn)類函數(shù)和接口重名的情況。多個有同名函數(shù)時,引入將發(fā)生命名沖突,使用來指明使用哪個的函數(shù)。 原文:wuYin/blog,轉載注明來源即可。 前言 Laravel 框架因為其組件化的設計并恰當使用設計模式,使得框架本身簡潔易擴展。區(qū)別于 ThinkPHP 那種整合式功能的框架(功能要么全用要么全不用),Lar...

    khlbat 評論0 收藏0
  • 那些 PHP 開發(fā)者能用得上工具

    PHP 函數(shù)的 JavaScript 實現(xiàn) module.exports = function array_sum (array) { // eslint-disable-line camelcase // discuss at: http://locutus.io/php/array_sum/ // original by: Kevin van Zonneveld (http://kv...

    JowayYoung 評論0 收藏0
  • PHP使用QueryList采集微信文章頁

    摘要:采集目標微信文章頁標題內(nèi)容發(fā)布時間作者等信息。安裝微信采集代碼采集規(guī)則可以很輕松的就寫出采集代碼出來,來看看運行結果和預期一樣正確采集到了內(nèi)容,但是內(nèi)容亂碼了。 采集目標 微信文章頁標題、內(nèi)容、發(fā)布時間、作者等信息。 采集示例URL https://mp.weixin.qq.com/s?src=11×tamp=1523173327&ver=803&signature=6PCx...

    AdolphLWQ 評論0 收藏0
  • laravel package收集

    摘要:查找保存下載用搭建自己的緩存?zhèn)}庫權限管理的好選擇基于封裝的后臺管理系統(tǒng),支持手機和端訪問支付寶風格的驗證器后臺系統(tǒng)微信接口的部署腳本開發(fā)的博客系統(tǒng)百度推送自動記錄用戶行為擴展一個項目管理系統(tǒng)根據(jù)生成對應導航的狀態(tài) 1.debug https://github.com/barryvdh/l... showImg(https://segmentfault.com/img/bVmhWL); ...

    psychola 評論0 收藏0
  • php使用QueryList輕松采集JavaScript動態(tài)渲染頁面

    摘要:使用的方式來做采集,擁有豐富的插件。下面來演示使用插件抓取動態(tài)創(chuàng)建的頁面內(nèi)容。插件使用瀏覽器打開連接使用以采集今日頭條手機版為例,今日頭條手機版基于框架,內(nèi)容是純動態(tài)渲染出來的。 QueryList使用jQuery的方式來做采集,擁有豐富的插件。 下面來演示QueryList使用PhantomJS插件抓取JS動態(tài)創(chuàng)建的頁面內(nèi)容。 安裝 使用Composer安裝: 安裝QueryList...

    Jason 評論0 收藏0

發(fā)表評論

0條評論

最新活動
閱讀需要支付1元查看
<