摘要:今天我就來(lái)聊聊我關(guān)于函數(shù)集的使用心得,關(guān)于請(qǐng)求的問(wèn)題。耗時(shí)這是不能容忍的。事實(shí)上內(nèi)部實(shí)現(xiàn)就是用的事件循環(huán)。通過(guò)函數(shù)創(chuàng)建下載器。四復(fù)雜的運(yùn)用這就是用法在上面的例子中。動(dòng)態(tài)的從下載器中取出已經(jīng)完成了的請(qǐng)求。函數(shù)實(shí)現(xiàn)的壓測(cè)工具。
一、引言
這段時(shí)間比較忙,已經(jīng)很久沒(méi)有寫(xiě)博客了。今天我就來(lái)聊聊我關(guān)于curl_multi_*函數(shù)集的使用心得,關(guān)于http請(qǐng)求的問(wèn)題。
當(dāng)我們用戶php發(fā)起一個(gè)http請(qǐng)求的時(shí)候。我們會(huì)首先想到用什么?沒(méi)錯(cuò),我們會(huì)創(chuàng)建curl來(lái)請(qǐng)求。當(dāng)我們?cè)谝淮螆?zhí)行中需要發(fā)起多個(gè)http請(qǐng)求呢。這簡(jiǎn)單,對(duì)每一個(gè)URL發(fā)起一次url請(qǐng)求。請(qǐng)求玩第1個(gè)再請(qǐng)求第2個(gè)....這就完了?哪我們還說(shuō)個(gè)啥。
官網(wǎng)鏈接:http://php.net/manual/zh/book.curl.php
二、多次簡(jiǎn)單的curl請(qǐng)求弊端我們舉個(gè)栗子?,F(xiàn)在有三個(gè)http請(qǐng)求。每個(gè)請(qǐng)求耗時(shí)2s。如果按照簡(jiǎn)單的curl請(qǐng)求(圖1-(1))。耗時(shí)6s.這是不能容忍的。如果請(qǐng)求的個(gè)數(shù)越多耗時(shí)約多。
有沒(méi)有一種方式來(lái)縮小查詢(xún)時(shí)間?能不能三個(gè)http請(qǐng)求同時(shí)執(zhí)行(如圖1-(1))?有很多方法來(lái)解決這個(gè)問(wèn)題,將耗時(shí)減少到2s。如:多進(jìn)程、線程、事件循環(huán)、curl_multi_*等等。最簡(jiǎn)單的方式就是通過(guò)curl_multi_*函數(shù)來(lái)完成。事實(shí)上curl_multi_*內(nèi)部實(shí)現(xiàn)就是用的事件循環(huán)。
三、簡(jiǎn)單的curl_multi_*運(yùn)用$value){ $options[$key] =$value; } if(!empty($postData) && is_array($postData)){ $options[CURLOPT_POST] = true; $options[CURLOPT_POSTFIELDS] = http_build_query($postData); } if(stripos($url,"https") === 0){ $options[CURLOPT_SSL_VERIFYPEER] = false; } $ch = curl_init(); curl_setopt_array($ch,$options); return $ch; } // 創(chuàng)建三個(gè)待請(qǐng)求的url對(duì)象 $chList = array(); $chList[] = getCurlObject("https://www.baidu.com"); $chList[] = getCurlObject("http://www.jd.com"); $chList[] = getCurlObject("http://www.jianshu.com/"); // 創(chuàng)建多請(qǐng)求執(zhí)行對(duì)象 $downloader = curl_multi_init(); // 將三個(gè)待請(qǐng)求對(duì)象放入下載器中 foreach ($chList as $ch){ curl_multi_add_handle($downloader,$ch); } // 輪詢(xún) do { while (($execrun = curl_multi_exec($downloader, $running)) == CURLM_CALL_MULTI_PERFORM) ; if ($execrun != CURLM_OK) { break; } // 一旦有一個(gè)請(qǐng)求完成,找出來(lái),處理,因?yàn)閏url底層是select,所以最大受限于1024 while ($done = curl_multi_info_read($downloader)) { // 從請(qǐng)求中獲取信息、內(nèi)容、錯(cuò)誤 $info = curl_getinfo($done["handle"]); $output = curl_multi_getcontent($done["handle"]); $error = curl_error($done["handle"]); // 將請(qǐng)求結(jié)果保存,我這里是打印出來(lái) print $output; // print "一個(gè)請(qǐng)求下載完成! "; // 把請(qǐng)求已經(jīng)完成了得 curl handle 刪除 curl_multi_remove_handle($downloader, $done["handle"]); } // 當(dāng)沒(méi)有數(shù)據(jù)的時(shí)候進(jìn)行堵塞,把 CPU 使用權(quán)交出來(lái),避免上面 do 死循環(huán)空跑數(shù)據(jù)導(dǎo)致 CPU 100% if ($running) { $rel = curl_multi_select($downloader, 1); if($rel == -1){ usleep(1000); } } if( $running == false){ break; } } while (true); // 下載完畢,關(guān)閉下載器 curl_multi_close($downloader); echo "所有請(qǐng)求下載完成!";
在該例子中,首先創(chuàng)建三個(gè)或多個(gè)要請(qǐng)求的url請(qǐng)求對(duì)象。通過(guò)curl_multi_*函數(shù)創(chuàng)建下載器。將請(qǐng)求寫(xiě)入下載器中。最后輪詢(xún)。等待三個(gè)請(qǐng)求現(xiàn)在完成。做處理。
四、復(fù)雜的curl_multi_*運(yùn)用這就是curl_multi_*用法?too yong too simple!在上面的例子中。下載器$downloader中的請(qǐng)求是一開(kāi)始就添加好了的。我們能不能動(dòng)態(tài)的向下載器中添加請(qǐng)求。動(dòng)態(tài)的從下載器中取出已經(jīng)完成了的請(qǐng)求。想想。這是什么?這不就是爬蟲(chóng)的核心部分-動(dòng)態(tài)下載器。如何動(dòng)態(tài)的添加?我們可以用多進(jìn)程通過(guò)IPC添加。我們可以通過(guò)協(xié)程通過(guò)隊(duì)列添加等待。
curl_multi_*函數(shù)實(shí)現(xiàn)的HTTP壓測(cè)工具:
https://github.com/hirudy/phplib/blob/master/phpAb.php。curl_multi_*實(shí)現(xiàn)的http請(qǐng)求類(lèi):
https://github.com/hirudy/phplib
我這實(shí)現(xiàn)了一個(gè)通過(guò)協(xié)程+curl_multi_*的爬蟲(chóng)框架。
Tspider:https://github.com/hirudy/Tspider。
單進(jìn)程可處理請(qǐng)求2000-5000/min。
文章版權(quán)歸作者所有,未經(jīng)允許請(qǐng)勿轉(zhuǎn)載,若此文章存在違規(guī)行為,您可以聯(lián)系管理員刪除。
轉(zhuǎn)載請(qǐng)注明本文地址:http://systransis.cn/yun/22106.html
摘要:普通請(qǐng)求創(chuàng)建多個(gè)資源并發(fā)創(chuàng)建多個(gè)資源創(chuàng)建批處理句柄增加句柄待優(yōu)化點(diǎn)在執(zhí)行而整個(gè)批處理句柄沒(méi)有全部執(zhí)行完畢時(shí),系統(tǒng)會(huì)不停地執(zhí)行函數(shù)。進(jìn)行改動(dòng)的方式是應(yīng)用函數(shù)庫(kù)中的函數(shù),其函數(shù)原型如下阻塞直到批處理連接中有活動(dòng)連接。 普通請(qǐng)求 curl_normal.php use time:0.830 s curl_multi并發(fā) curl_multi.php use time:0.259 s ...
摘要:根據(jù)獲取請(qǐng)求對(duì)象這個(gè)比較簡(jiǎn)單可以看官方文檔將三個(gè)待請(qǐng)求對(duì)象放入下載器中輪詢(xún)一旦有一個(gè)請(qǐng)求完成,找出來(lái),處理因?yàn)榈讓邮?,所以最大受限于從?qǐng)求中獲取信息內(nèi)容錯(cuò)誤把請(qǐng)求已經(jīng)完成了得刪除當(dāng)沒(méi)有數(shù)據(jù)的時(shí)候進(jìn)行堵塞,把使用權(quán)交出來(lái),避免上面死循環(huán)空跑數(shù) class CurlMultiUtil { /** * 根據(jù)url,postData獲取curl請(qǐng)求對(duì)象,這個(gè)比較簡(jiǎn)單,可以看官方...
摘要:本程序是抓取知乎的用戶數(shù)據(jù),要能訪問(wèn)用戶個(gè)人頁(yè)面,需要用戶登錄后的才能訪問(wèn)。經(jīng)過(guò)查閱資料得知,是因?yàn)橹鯇?duì)圖片做了防盜鏈處理。最終的結(jié)果是,用了一個(gè)周末就抓取了萬(wàn)的用戶數(shù)據(jù)。 代碼托管地址:https://github.com/hoohack/zhihuSpider 這次抓取了110萬(wàn)的用戶數(shù)據(jù),數(shù)據(jù)分析結(jié)果如下:showImg(https://segmentfault.com/img...
摘要:編程中的并發(fā)周末去北京面了兩個(gè)公司,認(rèn)識(shí)了幾位技術(shù)牛人,面試中聊了很多,感覺(jué)收獲頗豐。本文大約總結(jié)了編程中的五種并發(fā)方式,最后的的實(shí)現(xiàn)純屬無(wú)聊,可以無(wú)視。生成的可以中斷函數(shù),并用向發(fā)送消息。 PHP編程中的并發(fā) 周末去北京面了兩個(gè)公司,認(rèn)識(shí)了幾位技術(shù)牛人,面試中聊了很多,感覺(jué)收獲頗豐。認(rèn)識(shí)到了自己的不足之處,也堅(jiān)定了自己對(duì)計(jì)算機(jī)學(xué)習(xí)的信心。本文是對(duì)其中一道面試題的總結(jié)。 面試中有一個(gè)問(wèn)...
摘要:不支持多線程模式和回調(diào)處理,因此內(nèi)部腳本都是同步阻塞式的,如果你發(fā)起一個(gè)的請(qǐng)求,那么程序就會(huì)阻塞,直到請(qǐng)求返回結(jié)果,才會(huì)繼續(xù)執(zhí)行代碼。參考資料手冊(cè)手冊(cè)預(yù)定義常量中實(shí)現(xiàn)多線程請(qǐng)求詳解每次使用同時(shí)并發(fā)多少請(qǐng)求合適簡(jiǎn)書(shū)多線程及原理 后端服務(wù)開(kāi)發(fā)中經(jīng)常會(huì)有并發(fā)請(qǐng)求的需求,比如你需要獲取10家供應(yīng)商的帶寬數(shù)據(jù)(每個(gè)都提供不同的url),然后返回一個(gè)整合后的數(shù)據(jù),你會(huì)怎么做呢? 在PHP中,最直觀...
閱讀 3470·2021-11-17 17:00
閱讀 3837·2021-08-09 13:46
閱讀 2879·2019-08-30 15:54
閱讀 645·2019-08-30 13:54
閱讀 2957·2019-08-29 17:13
閱讀 3235·2019-08-29 14:00
閱讀 2988·2019-08-29 11:11
閱讀 1401·2019-08-26 10:15