Scrapy的架構(gòu)初探

劉明發(fā)布于2019-07-31 12:21 / 1478人閱讀

摘要：引言本文簡單講解一下的架構(gòu)。沒錯，開源的通用提取器就是要集成到架構(gòu)中，最看重的是的事件驅(qū)動的可擴展的架構(gòu)。架構(gòu)圖就是針對特定目標(biāo)網(wǎng)站編寫的內(nèi)容提取器，這是在通用網(wǎng)絡(luò)爬蟲框架中最需要定制的部分。

1. 引言

本文簡單講解一下Scrapy的架構(gòu)。沒錯，GooSeeker開源的通用提取器gsExtractor就是要集成到Scrapy架構(gòu)中，最看重的是Scrapy的事件驅(qū)動的可擴展的架構(gòu)。除了Scrapy，這一批研究對象還包括ScrapingHub，Import.io等，把先進的思路、技術(shù)引進來。

請注意，本文不想復(fù)述原文內(nèi)容，而是為了開源Python爬蟲的發(fā)展方向找參照，而且以9年來開發(fā)網(wǎng)絡(luò)爬蟲經(jīng)驗作為對標(biāo)，從而本文含有不少筆者主觀評述，如果想讀Scrapy官方原文，請點擊Scrapy官網(wǎng)的Architecture。

2. Scrapy架構(gòu)圖

Spiders就是針對特定目標(biāo)網(wǎng)站編寫的內(nèi)容提取器，這是在通用網(wǎng)絡(luò)爬蟲框架中最需要定制的部分。使用Scrapy創(chuàng)建一個爬蟲工程的時候，就會生成一個Spider架子，只需往里面填寫代碼，按照它的運行模式填寫，就能融入Scrapy整體的數(shù)據(jù)流中。GooSeeker開源網(wǎng)絡(luò)爬蟲的目標(biāo)是節(jié)省下程序員一半以上的時間，關(guān)鍵就是提高Spider的定義和測試速度，解決方案參看《1分鐘快速生成網(wǎng)頁內(nèi)容提取器》，讓整個Scrapy爬蟲系統(tǒng)實現(xiàn)快速定制的目標(biāo)。

3. Scrapy的數(shù)據(jù)流（Data Flow）

Scrapy中的數(shù)據(jù)流由執(zhí)行引擎控制，下面的原文摘自Scrapy官網(wǎng)，我根據(jù)猜測做了點評，為進一步開發(fā)GooSeeker開源爬蟲指示方向：

The Engine gets the first URLs to crawl from the Spider and schedules
them in the Scheduler, as Requests.

URL誰來準(zhǔn)備呢？看樣子是Spider自己來準(zhǔn)備，那么可以猜測Scrapy架構(gòu)部分（不包括Spider）主要做事件調(diào)度，不管網(wǎng)址的存儲。看起來類似GooSeeker會員中心的爬蟲羅盤，為目標(biāo)網(wǎng)站準(zhǔn)備一批網(wǎng)址，放在羅盤中準(zhǔn)備執(zhí)行爬蟲調(diào)度操作。所以，這個開源項目的下一個目標(biāo)是把URL的管理放在一個集中的調(diào)度庫里面

The Engine asks the Scheduler for the next URLs to crawl.

看到這里其實挺難理解的，要看一些其他文檔才能理解透。接第1點，引擎從Spider中把網(wǎng)址拿到以后，封裝成一個Request，交給了事件循環(huán)，會被Scheduler收來做調(diào)度管理的，暫且理解成對Request做排隊。引擎現(xiàn)在就找Scheduler要接下來要下載的網(wǎng)頁地址

The Scheduler returns the next URLs to crawl to the Engine and the
Engine sends them to the Downloader, passing through the Downloader
Middleware (request direction).

從調(diào)度器申請任務(wù)，把申請到的任務(wù)交給下載器，在下載器和引擎之間有個下載器中間件，這是作為一個開發(fā)框架的必備亮點，開發(fā)者可以在這里進行一些定制化擴展

Once the page finishes downloading the Downloader generates a Response
(with that page) and sends it to the Engine, passing through the
Downloader Middleware (response direction).

下載完成了，產(chǎn)生一個Response，通過下載器中間件交給引擎。注意，Response和前面的Request的首字母都是大寫，雖然我還沒有看其它Scrapy文檔，但是我猜測這是Scrapy框架內(nèi)部的事件對象，也可以推測出是一個異步的事件驅(qū)動的引擎，對于高性能、低開銷引擎來說，這是必須的

The Engine receives the Response from the Downloader and sends it to
the Spider for processing, passing through the Spider Middleware
(input direction).

再次出現(xiàn)一個中間件，給開發(fā)者足夠的發(fā)揮空間

The Spider processes the Response and returns scraped items and new
Requests (to follow) to the Engine.

每個Spider順序抓取一個個網(wǎng)頁，完成一個就構(gòu)造另一個Request事件，開始另一個網(wǎng)頁的抓取

The Engine passes scraped items and new Requests returned by a spider
through Spider Middleware (output direction), and then sends processed
items to Item Pipelines and processed Requests to the Scheduler.

引擎作事件分發(fā)

The process repeats (from step 1) until there are no more requests
from the Scheduler.

持續(xù)不斷地運行

4. 接下來的工作

接下來，我們將進一步研讀Scrapy的文檔，實現(xiàn)GooSeeker開源Python爬蟲與Scrapy的集成

5. 文檔修改歷史

2016-06-11：V1.0，首次發(fā)布

GPU云服務(wù)器云服務(wù)器初探webrtc webrtc技術(shù)初探初探騰訊云存儲網(wǎng)關(guān) SQL存儲過程初探

文章版權(quán)歸作者所有，未經(jīng)允許請勿轉(zhuǎn)載,若此文章存在違規(guī)行為，您可以聯(lián)系管理員刪除。

轉(zhuǎn)載請注明本文地址：http://systransis.cn/yun/45472.html

發(fā)表評論

登陸后可評論

0條評論

劉明

男|高級講師

我要關(guān)注我要私信

TA的文章

白話 Linux 容器資源的隔離限制原理

閱讀 2372·2021-11-24 09:39
手把手教你安裝Anaconda

閱讀 3822·2021-11-19 09:40
??蘇州程序大白一文教你學(xué)會微信小程序開發(fā)??《??記得收藏??》

閱讀 2198·2021-09-27 13:36
css頁面布局技巧

閱讀 1917·2019-08-30 15:44
javascript 總結(jié)（常用工具類的封裝）

閱讀 421·2019-08-30 13:52
rgb轉(zhuǎn)hsl

閱讀 2738·2019-08-30 11:13
overflow hidden 遇上absolute失效

閱讀 2229·2019-08-29 16:18
CSS1:CSS難學(xué)與好學(xué),CSS學(xué)習(xí)方法

閱讀 1794·2019-08-29 15:43

成人国产在线小视频_日韩寡妇人妻调教在线播放_色成人www永久在线观看_2018国产精品久久_亚洲欧美高清在线30p_亚洲少妇综合一区_黄色在线播放国产_亚洲另类技巧小说校园_国产主播xx日韩_a级毛片在线免费

資訊專欄INFORMATION COLUMN

上云采購季！| 2核2G4M爆款云服務(wù)器低至59元/年，更有多臺、長期優(yōu)惠，快來選購！

Scrapy的架構(gòu)初探

相關(guān)文章

Scrapy入門程序點評

Scrapy：python3下的第一次運行測試

**讓Scrapy的Spider更通用**

**Python爬蟲之Scrapy學(xué)習(xí)（基礎(chǔ)篇）**

scrapy-redis分布式爬蟲框架詳解

發(fā)表評論

0條評論

劉明

男|高級講師

TA的文章

白話 Linux 容器資源的隔離限制原理

手把手教你安裝Anaconda

??蘇州程序大白一文教你學(xué)會微信小程序開發(fā)??《??記得收藏??》

css頁面布局技巧

javascript 總結(jié)（常用工具類的封裝）

rgb轉(zhuǎn)hsl

overflow hidden 遇上absolute失效

CSS1:CSS難學(xué)與好學(xué),CSS學(xué)習(xí)方法

最新活動

資訊專欄INFORMATION COLUMN

上云采購季！| 2核2G4M爆款云服務(wù)器低至59元/年，更有多臺、長期優(yōu)惠，快來選購！

Scrapy的架構(gòu)初探

相關(guān)文章

發(fā)表評論

0條評論

男|高級講師

TA的文章

最新活動

上云采購季！| 2核2G4M爆款云服務(wù)器低至59元/年，更有多臺、長期優(yōu)惠，快來選購！