基于Celery的分布式爬蟲管理平臺: Crawlab

legendaryedu 發(fā)布于2019-07-31 10:08 / 3317人閱讀

摘要：基于的爬蟲分布式爬蟲管理平臺，支持多種編程語言以及多種爬蟲框架。后臺程序會自動發(fā)現(xiàn)這些爬蟲項目并儲存到數(shù)據(jù)庫中。每一個節(jié)點需要啟動應(yīng)用來支持爬蟲部署。任務(wù)將以環(huán)境變量的形式存在于爬蟲任務(wù)運行的進程中，并以此來關(guān)聯(lián)抓取數(shù)據(jù)。

Crawlab

基于Celery的爬蟲分布式爬蟲管理平臺，支持多種編程語言以及多種爬蟲框架。

Github: https://github.com/tikazyq/crawlab

截圖首頁

爬蟲列表

爬蟲詳情 - 概覽

任務(wù)詳情 - 抓取結(jié)果

架構(gòu)

Crawlab的架構(gòu)跟Celery非常相似，但是加入了包括前端、爬蟲、Flower在內(nèi)的額外模塊，以支持爬蟲管理的功能。

節(jié)點

節(jié)點其實就是Celery中的Worker。一個節(jié)點運行時會連接到一個任務(wù)隊列（例如Redis）來接收和運行任務(wù)。所有爬蟲需要在運行時被部署到節(jié)點上，用戶在部署前需要定義節(jié)點的IP地址和端口。

爬蟲

自動發(fā)現(xiàn)

在config.py文件中，修改變量PROJECT_SOURCE_FILE_FOLDER作為爬蟲項目所在的目錄。Crawlab后臺程序會自動發(fā)現(xiàn)這些爬蟲項目并儲存到數(shù)據(jù)庫中。是不是很方便？

部署爬蟲

所有爬蟲需要在抓取前被部署當(dāng)相應(yīng)當(dāng)節(jié)點中。在"爬蟲詳情"頁面點擊"Deploy"按鈕，爬蟲將被部署到所有有效到節(jié)點中。

運行爬蟲

部署爬蟲之后，你可以在"爬蟲詳情"頁面點擊"Run"按鈕來啟動爬蟲。一個爬蟲任務(wù)將被觸發(fā)，你可以在任務(wù)列表頁面中看到這個任務(wù)。

任務(wù)

任務(wù)被觸發(fā)并被節(jié)點執(zhí)行。用戶可以在任務(wù)詳情頁面中看到任務(wù)到狀態(tài)、日志和抓取結(jié)果。

后臺應(yīng)用

這是一個Flask應(yīng)用，提供了必要的API來支持常規(guī)操作，例如CRUD、爬蟲部署以及任務(wù)運行。每一個節(jié)點需要啟動Flask應(yīng)用來支持爬蟲部署。運行python manage.py app或python ./bin/run_app.py來啟動應(yīng)用。

中間者

中間者跟Celery中定義的一樣，作為運行異步任務(wù)的隊列。

前端

前端其實就是一個基于Vue-Element-Admin的單頁應(yīng)用。其中重用了很多Element-UI的控件來支持相應(yīng)的展示。

數(shù)據(jù)關(guān)聯(lián)

任務(wù)是利用python的subprocess模塊中的Popen來實現(xiàn)的。任務(wù)ID將以環(huán)境變量CRAWLAB_TASK_ID的形式存在于爬蟲任務(wù)運行的進程中，并以此來關(guān)聯(lián)抓取數(shù)據(jù)。

在你的爬蟲程序中，你需要將CRAWLAB_TASK_ID的值以task_id作為可以存入數(shù)據(jù)庫中。這樣Crawlab就直到如何將爬蟲任務(wù)與抓取數(shù)據(jù)關(guān)聯(lián)起來了。當(dāng)前，Crawlab只支持MongoDB。

import os
from pymongo import MongoClient

MONGO_HOST = "192.168.99.100"
MONGO_PORT = 27017
MONGO_DB = "crawlab_test"

# scrapy example in the pipeline
class JuejinPipeline(object):
    mongo = MongoClient(host=MONGO_HOST, port=MONGO_PORT)
    db = mongo[MONGO_DB]
    col_name = os.environ.get("CRAWLAB_COLLECTION")
    if not col_name:
        col_name = "test"
    col = db[col_name]

    def process_item(self, item, spider):
        item["task_id"] = os.environ.get("CRAWLAB_TASK_ID")
        self.col.save(item)
        return item

與其他框架比較

限制以及有一些爬蟲管理框架了，因此為啥還要用Crawlab？

因為很多現(xiàn)有當(dāng)平臺都依賴于Scrapyd，限制了爬蟲的編程語言以及框架，爬蟲工程師只能用scrapy和python。當(dāng)然，scrapy是非常優(yōu)秀的爬蟲框架，但是它不能做一切事情。

Crawlab使用起來很方便，也很通用，可以適用于幾乎任何主流語言和框架。它還有一個精美的前端界面，讓用戶可以方便的管理和運行爬蟲。

框架	類型	分布式	前端	依賴于Scrapyd
Crawlab	管理平臺	Y	Y	N
Gerapy	管理平臺	Y	Y	Y
SpiderKeeper	管理平臺	Y	Y	Y
ScrapydWeb	管理平臺	Y	Y	Y
Scrapyd	網(wǎng)絡(luò)服務(wù)	Y	N	N/A

TODOs

后端

[ ] 文件管理

[ ] MySQL數(shù)據(jù)庫支持

[ ] 重跑任務(wù)

[ ] 節(jié)點監(jiān)控

[ ] 更多爬蟲例子

前端

[ ] 任務(wù)數(shù)據(jù)統(tǒng)計

[ ] 表格過濾

[ ] 多語言支持 (中文)

[ ] 登錄和用戶管理

[ ] 全局搜索

歡迎大家來加入Crawlab開發(fā)交流群

云服務(wù)器 GPU云服務(wù)器基于云計算的平臺基于物聯(lián)網(wǎng)的云平臺基于大數(shù)據(jù)平臺的應(yīng)用服務(wù) 基于云計算的電子政務(wù)公共平臺

文章版權(quán)歸作者所有，未經(jīng)允許請勿轉(zhuǎn)載,若此文章存在違規(guī)行為，您可以聯(lián)系管理員刪除。

轉(zhuǎn)載請注明本文地址：http://systransis.cn/yun/43303.html

發(fā)表評論

登陸后可評論

0條評論

legendaryedu

男|高級講師

我要關(guān)注我要私信

TA的文章

四·C語言之·函數(shù)全方位理解

閱讀 4413·2021-11-22 09:34
C++入門string類常用接口函數(shù)介紹 + 進階【模擬實現(xiàn)string接口函數(shù)】

閱讀 2716·2021-11-12 10:36
Wikihost(微基主機)：洛杉磯聯(lián)通CU AS9929/AS4837 VPS促銷，年付85折，免

閱讀 769·2021-08-18 10:23
balabala: dom 轉(zhuǎn)圖片場景和技術(shù)方案

閱讀 2661·2019-08-30 15:55
前端面試題（中）

閱讀 3166·2019-08-30 15:53
2019.7.15 - 7.21 我們 36人都學(xué)了些什么？

閱讀 2106·2019-08-30 15:44
一些實現(xiàn)垂直居中的方法

閱讀 1384·2019-08-29 15:37
使用css3實現(xiàn)骰子動畫

閱讀 1447·2019-08-29 13:04

成人国产在线小视频_日韩寡妇人妻调教在线播放_色成人www永久在线观看_2018国产精品久久_亚洲欧美高清在线30p_亚洲少妇综合一区_黄色在线播放国产_亚洲另类技巧小说校园_国产主播xx日韩_a级毛片在线免费

資訊專欄INFORMATION COLUMN

上云采購季！| 2核2G4M爆款云服務(wù)器低至59元/年，更有多臺、長期優(yōu)惠，快來選購！