成人国产在线小视频_日韩寡妇人妻调教在线播放_色成人www永久在线观看_2018国产精品久久_亚洲欧美高清在线30p_亚洲少妇综合一区_黄色在线播放国产_亚洲另类技巧小说校园_国产主播xx日韩_a级毛片在线免费

資訊專欄INFORMATION COLUMN

Beanbun: 簡(jiǎn)單開放的 PHP 爬蟲框架

mayaohua / 3520人閱讀

摘要:是用編寫的多進(jìn)程網(wǎng)絡(luò)爬蟲框架,具有良好的開放性高可擴(kuò)展性。它要天然支持分布式,支持多進(jìn)程或線程,利用,可以方便的建立起一個(gè)功能強(qiáng)大的爬蟲。

Beanbun

Beanbun 是用 PHP 編寫的多進(jìn)程網(wǎng)絡(luò)爬蟲框架,具有良好的開放性、高可擴(kuò)展性。
項(xiàng)目地址:https://github.com/kiddyuchin...
文檔地址:http://beanbun.org

由來

我希望有這樣一個(gè)爬蟲框架:在簡(jiǎn)單需求的情況下,可以用最少的代碼快速建立一個(gè)功能完善的爬蟲;而且如果你愿意,你可以對(duì)爬蟲進(jìn)行你想要的任何修改。它要天然支持分布式,支持多進(jìn)程(或線程),利用 composer,可以方便的建立起一個(gè)功能強(qiáng)大的爬蟲。
在對(duì)之前寫過的一個(gè)爬蟲的功能不斷的刪減調(diào)整后,就有了目前的 Beanbun,這個(gè)名字來自于作者家的貓,此貓名叫門丁,“門丁”是北方的一種面點(diǎn)。門丁 -> 豆包 -> bean bun。
我希望在這里能夠拋磚引玉,和大家一起繼續(xù)完善 Beanbun。

特點(diǎn)

支持守護(hù)進(jìn)程與普通兩種模式(守護(hù)進(jìn)程模式只支持 Linux 服務(wù)器)

默認(rèn)使用 Guzzle 進(jìn)行爬取

支持分布式

支持內(nèi)存、Redis 等多種隊(duì)列方式

支持自定義URI過濾

支持廣度優(yōu)先和深度優(yōu)先兩種爬取方式

遵循 PSR-4 標(biāo)準(zhǔn)

爬取網(wǎng)頁分為多步,每步均支持自定義動(dòng)作(如添加代理、修改 user-agent 等)

靈活的擴(kuò)展機(jī)制,可方便的為框架制作插件:自定義隊(duì)列、自定義爬取方式...

安裝

Beanbun 可以通過 composer 進(jìn)行安裝。

$ composer require kiddyu/beanbun
一個(gè)簡(jiǎn)單的例子

創(chuàng)建一個(gè)文件 start.php,包含以下內(nèi)容

seed = [
    "http://www.950d.com/",
    "http://www.950d.com/list-1.html",
    "http://www.950d.com/list-2.html",
];
$beanbun->afterDownloadPage = function($beanbun) {
    file_put_contents(__DIR__ . "/" . md5($beanbun->url), $beanbun->page);
};
$beanbun->start();

在命令行中執(zhí)行

$ php start.php

接下來就可以看到抓取的日志了。

2017-04-04 14:14:14 Beanbun worker download http://www.950d.com/ success.
2017-04-04 14:14:14 Beanbun worker download http://www.950d.com/list-1.html success.
2017-04-04 14:14:14 Beanbun worker download http://www.950d.com/list-2.html success.
最后

后邊我會(huì)針對(duì)一些不同類型的網(wǎng)站,寫一些用 Beanbun 實(shí)現(xiàn)爬蟲的小例子,歡迎大家持續(xù)關(guān)注。

文章版權(quán)歸作者所有,未經(jīng)允許請(qǐng)勿轉(zhuǎn)載,若此文章存在違規(guī)行為,您可以聯(lián)系管理員刪除。

轉(zhuǎn)載請(qǐng)注明本文地址:http://systransis.cn/yun/22806.html

相關(guān)文章

  • [PHP] 又是知乎,用 Beanbun 爬取知乎用戶

    摘要:最近看了很多關(guān)于爬蟲入門的文章,發(fā)現(xiàn)其中大部分都是以知乎為爬取對(duì)象,所以這次我也以知乎為目標(biāo)來進(jìn)行爬取的演示,用到的爬蟲框架為編寫的。項(xiàng)目地址這次寫的內(nèi)容為爬取知乎的用戶,下面就是詳細(xì)說一下寫爬蟲的過程了。 最近看了很多關(guān)于爬蟲入門的文章,發(fā)現(xiàn)其中大部分都是以知乎為爬取對(duì)象,所以這次我也以知乎為目標(biāo)來進(jìn)行爬取的演示,用到的爬蟲框架為 PHP 編寫的 Beanbun。 項(xiàng)目地址:http...

    tomato 評(píng)論0 收藏0
  • PHP相關(guān)

    摘要:的機(jī)器學(xué)習(xí)庫的機(jī)器學(xué)習(xí)庫,包括算法交叉驗(yàn)證神經(jīng)網(wǎng)絡(luò)等內(nèi)容。在即將到來的大會(huì)上,她將和大家分享在機(jī)器學(xué)習(xí)領(lǐng)域的全新可能。入門總結(jié)入門相關(guān),如安裝配置基本使用等。 基于 Swoole 開發(fā) PHP 擴(kuò)展 Swoole-1.9.7 增加了一個(gè)新特性,可以基于 Swoole 使用 C++ 語言開發(fā)擴(kuò)展模塊,在擴(kuò)展模塊中可以注冊(cè) PHP 內(nèi)置函數(shù)和類?,F(xiàn)在可以基于 Swoole 來編寫 PHP ...

    lewinlee 評(píng)論0 收藏0
  • Pyhton爬蟲實(shí)戰(zhàn) - 抓取BOSS直聘職位描述 和 數(shù)據(jù)清洗

    摘要:然后準(zhǔn)備再去抓下拉勾網(wǎng)的招聘數(shù)據(jù),這也是個(gè)相對(duì)優(yōu)秀的專業(yè)招聘網(wǎng)站了,數(shù)據(jù)也相當(dāng)多,想當(dāng)初找實(shí)習(xí)找正式工作,都是在這兩個(gè)上找的,其他的網(wǎng)站幾乎都沒看。 原文地址:http://www.jtahstu.com/blog/s... Pyhton爬蟲實(shí)戰(zhàn) - 抓取BOSS直聘職位描述 和 數(shù)據(jù)清洗 零、致謝 感謝BOSS直聘相對(duì)權(quán)威的招聘信息,使本人有了這次比較有意思的研究之旅。 由于爬蟲持續(xù)...

    zhkai 評(píng)論0 收藏0
  • Pyhton爬蟲實(shí)戰(zhàn) - 抓取BOSS直聘職位描述 和 數(shù)據(jù)清洗

    摘要:然后準(zhǔn)備再去抓下拉勾網(wǎng)的招聘數(shù)據(jù),這也是個(gè)相對(duì)優(yōu)秀的專業(yè)招聘網(wǎng)站了,數(shù)據(jù)也相當(dāng)多,想當(dāng)初找實(shí)習(xí)找正式工作,都是在這兩個(gè)上找的,其他的網(wǎng)站幾乎都沒看。 原文地址:http://www.jtahstu.com/blog/s... Pyhton爬蟲實(shí)戰(zhàn) - 抓取BOSS直聘職位描述 和 數(shù)據(jù)清洗 零、致謝 感謝BOSS直聘相對(duì)權(quán)威的招聘信息,使本人有了這次比較有意思的研究之旅。 由于爬蟲持續(xù)...

    Ocean 評(píng)論0 收藏0
  • 我在全球最大同性社交平臺(tái)那點(diǎn)事

    摘要:從最大的同性社交平臺(tái)獲取數(shù)據(jù)好了,言歸正傳,回到題目。烏云密布的爬蟲百度網(wǎng)盤這件事,是我不想看到的,這類安全問題的一個(gè)共同特點(diǎn)用戶自身確實(shí)存在問題。 本文作者:夏之冰雪,i春秋簽約作家 《我在百度網(wǎng)盤上看到上萬條車主個(gè)人信息,企業(yè)、政府高官信息、各種數(shù)據(jù)庫和無窮無盡的盜版》,一時(shí)間,這篇文章就火了,火爆程度另百度猝不及防。 其實(shí)呢,這事真不能全怪百度,畢竟用戶分享出去了。之所以引起這么...

    AlphaWatch 評(píng)論0 收藏0

發(fā)表評(píng)論

0條評(píng)論

最新活動(dòng)
閱讀需要支付1元查看
<