讓Scrapy的Spider更通用

MartinDai 發(fā)布于2019-07-25 10:35 / 1221人閱讀

摘要：而分配任務(wù)的是會(huì)員中心的爬蟲羅盤，實(shí)現(xiàn)集中管理分布執(zhí)行。開源即時(shí)網(wǎng)絡(luò)爬蟲項(xiàng)目同樣也要盡量實(shí)現(xiàn)通用化。網(wǎng)址和提取規(guī)則本來應(yīng)該硬編碼到中的，現(xiàn)在隔離出來，由會(huì)員中心進(jìn)行管理，那么就很容易做通用了。

1，引言

《Scrapy的架構(gòu)初探》一文所講的Spider是整個(gè)架構(gòu)中最定制化的一個(gè)部件，Spider負(fù)責(zé)把網(wǎng)頁內(nèi)容提取出來，而不同數(shù)據(jù)采集目標(biāo)的內(nèi)容結(jié)構(gòu)不一樣，幾乎需要為每一類網(wǎng)頁都做定制。我們有個(gè)設(shè)想：是否能做一個(gè)比較通用的Spider，把定制部分再進(jìn)一步隔離出去？

GooSeeker有一個(gè)爬蟲群模式，從技術(shù)實(shí)現(xiàn)層面來考察的話，其實(shí)就是把爬蟲軟件做成一個(gè)被動(dòng)接受任務(wù)的執(zhí)行單元，給他什么任務(wù)他就做什么任務(wù)，也就是說同一個(gè)執(zhí)行單元可以爬多種不同的網(wǎng)站。而分配任務(wù)的是GooSeeker會(huì)員中心的爬蟲羅盤，實(shí)現(xiàn)集中管理分布執(zhí)行。

開源Python即時(shí)網(wǎng)絡(luò)爬蟲項(xiàng)目同樣也要盡量實(shí)現(xiàn)通用化。主要抓取以下2個(gè)重點(diǎn)：

網(wǎng)頁內(nèi)容提取器從外部注入到Spider中，讓Spider變通用：參看《Python即時(shí)網(wǎng)絡(luò)爬蟲：API說明》，通過API從GooSeeker會(huì)員中心獲得網(wǎng)頁內(nèi)容提取器，可以充分利用MS謀數(shù)臺(tái)的直觀標(biāo)注快速生成提取器的能力。

抓取目標(biāo)網(wǎng)址不再存于Spider，而是從外部獲得：GooSeeker有個(gè)基于大數(shù)據(jù)平臺(tái)的網(wǎng)址庫系統(tǒng)，還有爬蟲羅盤可觀察網(wǎng)址的抓取狀態(tài)，也有用戶界面添加刪除網(wǎng)址，把Spider進(jìn)一步做成一個(gè)執(zhí)行機(jī)構(gòu)。
下面我們將進(jìn)一步講解實(shí)現(xiàn)原理，以助于讀者閱讀源碼。

2，爬蟲群模式示意圖

中間藍(lán)色部分就是GooSeeker會(huì)員中心的地址庫和爬蟲羅盤。網(wǎng)址和提取規(guī)則本來應(yīng)該硬編碼到Spider中的，現(xiàn)在隔離出來，由會(huì)員中心進(jìn)行管理，那么Spider就很容易做通用了。

3，通用Spider的主要功能

地址庫和提取規(guī)則隔離出來以后，Scrapy的Spider可以專注于以下流程：

通過API從GooSeeker會(huì)員中心獲取內(nèi)容提取器：這個(gè)API的url可以硬編碼到Spider中，放在start_urls列表的位置，這里本來是放目標(biāo)網(wǎng)頁地址的，現(xiàn)在換成一個(gè)固定的API地址，在這一點(diǎn)上，Spider變通用了

在第一個(gè)parse（）過程，不是解析目標(biāo)網(wǎng)頁內(nèi)容，而是把API中獲得內(nèi)容提取器注入到gsExtractor中。

在第一個(gè)parse（）過程，為第二個(gè)API構(gòu)造一個(gè)Request，目的是從GooSeeker會(huì)員中心獲取要爬取的網(wǎng)址

在第二個(gè)parse（）過程，用目標(biāo)網(wǎng)址構(gòu)造一個(gè)Request，這才是真正的交給Loader去下載目標(biāo)網(wǎng)頁

在第三個(gè)parse（）過程，利用gsExtractor提取網(wǎng)頁內(nèi)容

在第三個(gè)parse（）過程，再次為第二個(gè)API構(gòu)造一個(gè)Request，獲得下一個(gè)目標(biāo)網(wǎng)址

跳到4，一直循環(huán)，直到GooSeeker會(huì)員中心的地址庫都用完了。

4，接下來的工作

按照上述設(shè)想編寫和調(diào)測Scrapy的通用Spider

研究是否可以更加通用，把GooSeeker的爬蟲群調(diào)度都引入到Spider中，也就是在通過第一個(gè)API獲得提取器之前再增加一個(gè)獲得爬蟲群調(diào)度任務(wù)的過程，這樣，把所有Spider都變成被動(dòng)接受任務(wù)的工作模式，每個(gè)Spider是不固定抓取規(guī)則的。

5，相關(guān)文檔

Python即時(shí)網(wǎng)絡(luò)爬蟲項(xiàng)目: 內(nèi)容提取器的定義

Scrapy：python3下的第一次運(yùn)行測試

6，集搜客GooSeeker開源代碼下載源

開源Python即時(shí)網(wǎng)絡(luò)爬蟲GitHub源

7，文檔修改歷史

2016-06-30：V1.0，首次發(fā)布
2016-06-30：V1.1，編輯修改，補(bǔ)充過程描述文字

GPU云服務(wù)器云服務(wù)器如何讓服務(wù)器更安全、更改過域名的公司 Spider 大數(shù)據(jù)更強(qiáng)調(diào)數(shù)據(jù)的

文章版權(quán)歸作者所有，未經(jīng)允許請(qǐng)勿轉(zhuǎn)載,若此文章存在違規(guī)行為，您可以聯(lián)系管理員刪除。

轉(zhuǎn)載請(qǐng)注明本文地址：http://systransis.cn/yun/38047.html

發(fā)表評(píng)論

登陸后可評(píng)論

0條評(píng)論

MartinDai

男|高級(jí)講師

我要關(guān)注我要私信

TA的文章

大學(xué)一年之后竟如此。。。開學(xué)前的掙扎

閱讀 2600·2021-09-06 15:02
無憂云：高配服務(wù)器入秋大反饋！河南洛陽，東北大連BGP，骨干網(wǎng)，Ceph 一主三副分布式存儲(chǔ) 活動(dòng)

閱讀 3238·2021-09-02 10:18
前端20個(gè)靈魂拷問徹底搞明白你就是中級(jí)前端工程師【中篇】

閱讀 2852·2019-08-30 15:44
如何讓子元素在父元素中水平垂直居中七種方法?

閱讀 712·2019-08-30 15:43
js的淺拷貝和深拷貝和應(yīng)用場景

閱讀 1976·2019-08-30 14:08
OpenDigg前端開源項(xiàng)目周報(bào)1219

閱讀 2787·2019-08-30 13:16
前端基礎(chǔ)：詳解面向?qū)ο?、?gòu)造函數(shù)、原型與原型鏈、繼承

閱讀 1439·2019-08-26 13:52
Vue.nextTick淺析

閱讀 959·2019-08-26 12:21

成人国产在线小视频_日韩寡妇人妻调教在线播放_色成人www永久在线观看_2018国产精品久久_亚洲欧美高清在线30p_亚洲少妇综合一区_黄色在线播放国产_亚洲另类技巧小说校园_国产主播xx日韩_a级毛片在线免费

資訊專欄INFORMATION COLUMN

上云采購季！| 2核2G4M爆款云服務(wù)器低至59元/年，更有多臺(tái)、長期優(yōu)惠，快來選購！

讓Scrapy的Spider更通用

相關(guān)文章

爬蟲入門

爬蟲入門

Scrapy的架構(gòu)初探

Scrapy Demo

scrapy-redis分布式爬蟲框架詳解

發(fā)表評(píng)論

0條評(píng)論

MartinDai

男|高級(jí)講師

TA的文章

大學(xué)一年之后竟如此。。。開學(xué)前的掙扎

無憂云：高配服務(wù)器入秋大反饋！河南洛陽，東北大連BGP，骨干網(wǎng)，Ceph 一主三副分布式存儲(chǔ) 活動(dòng)

前端20個(gè)靈魂拷問徹底搞明白你就是中級(jí)前端工程師【中篇】

如何讓子元素在父元素中水平垂直居中七種方法?

js的淺拷貝和深拷貝和應(yīng)用場景

OpenDigg前端開源項(xiàng)目周報(bào)1219

前端基礎(chǔ)：詳解面向?qū)ο?、?gòu)造函數(shù)、原型與原型鏈、繼承

Vue.nextTick淺析

最新活動(dòng)

資訊專欄INFORMATION COLUMN

上云采購季！| 2核2G4M爆款云服務(wù)器低至59元/年，更有多臺(tái)、長期優(yōu)惠，快來選購！

讓Scrapy的Spider更通用

相關(guān)文章

發(fā)表評(píng)論

0條評(píng)論

男|高級(jí)講師

TA的文章

最新活動(dòng)

上云采購季！| 2核2G4M爆款云服務(wù)器低至59元/年，更有多臺(tái)、長期優(yōu)惠，快來選購！