Scrapy入門程序點(diǎn)評(píng)

baiy 發(fā)布于2019-07-25 10:31 / 2300人閱讀

摘要：本文大部分內(nèi)容摘抄自官網(wǎng)的，看到巧妙之處則加了點(diǎn)評(píng)。，接下來(lái)的工作至此，框架已經(jīng)明確選定了，接下來(lái)，我們將進(jìn)一步研讀的文檔，研究怎樣把的封裝成需要的。，文檔修改歷史，首次發(fā)布

1，引言

在《Scrapy的架構(gòu)初探》一文，我基于爬蟲開發(fā)的經(jīng)驗(yàn)對(duì)Scrapy官網(wǎng)文章作了點(diǎn)評(píng)和解讀，事件驅(qū)動(dòng)的異步處理架構(gòu)、極強(qiáng)的模塊化等是個(gè)絕好的框架，接著我細(xì)讀了官網(wǎng)的《Scrapy at a glance》，更加強(qiáng)了我的感受：就是他了——開源Python網(wǎng)絡(luò)爬蟲項(xiàng)目需要一個(gè)爬蟲框架，我不想重復(fù)發(fā)明輪子，只想專注于爬蟲里面的提取器的生成和使用，也就是Scrapy中的Spider部分。

本文大部分內(nèi)容摘抄自Scrapy官網(wǎng)的《Scrapy at a glance》，看到Scrapy巧妙之處則加了點(diǎn)評(píng)。

2，Scrapy的Spider例子

在Scrapy的框架中，Spider與GooSeeker開源爬蟲的提取器類似，核心特征是

Spider通常針對(duì)一個(gè)特定網(wǎng)站

Spider里面存了爬行入口URLs集合

Scrapy的引擎順序拿Spider中的入口URL，構(gòu)造Request對(duì)象，啟動(dòng)消息循環(huán)

Spider提供接口方法，把抓取下來(lái)的內(nèi)容進(jìn)行輸出

對(duì)GooSeeker的MS謀數(shù)臺(tái)和DS打數(shù)機(jī)比較了解的讀者，可以把Spider想象成：MS謀數(shù)臺(tái)上定義的一組抓取規(guī)則 + 會(huì)員中心的爬蟲羅盤

下面我們從官網(wǎng)拷貝一個(gè)例子：

class StackOverflowSpider(scrapy.Spider):
    name = "stackoverflow"
    start_urls = ["http://stackoverflow.com/questions?sort=votes"]

    def parse(self, response):
        for href in response.css(".question-summary h3 a::attr(href)"):
            full_url = response.urljoin(href.extract())
            yield scrapy.Request(full_url, callback=self.parse_question)

    def parse_question(self, response):
        yield {
            "title": response.css("h1 a::text").extract()[0],
            "votes": response.css(".question .vote-count-post::text").extract()[0],
            "body": response.css(".question .post-text").extract()[0],
            "tags": response.css(".question .post-tag::text").extract(),
            "link": response.url,
        }

看這個(gè)例子需要注意以下幾點(diǎn)

start_urls存儲(chǔ)入口網(wǎng)址列表，本例只有一個(gè)網(wǎng)址

parse()函數(shù)是爬到了網(wǎng)頁(yè)后執(zhí)行的，是由引擎回調(diào)的

本來(lái)到parse()就完成了，但是這個(gè)例子展示了一個(gè)兩級(jí)抓取的案例，在parse()里面構(gòu)造了下一級(jí)抓取的任務(wù)，生成Request對(duì)象，并登記一個(gè)回調(diào)函數(shù)

parse_question()是第二級(jí)的解析網(wǎng)頁(yè)的函數(shù)，返回了一個(gè)JSON對(duì)象

事件驅(qū)動(dòng)模式顯而易見，可以構(gòu)造好多Request，丟給引擎即可，不用阻塞式等待

官網(wǎng)文章還總結(jié)了其他很多功能特性，總之，Scrapy是一個(gè)十分完善和強(qiáng)大的框架。

3，接下來(lái)的工作

至此，Scrapy框架已經(jīng)明確選定了，接下來(lái)，我們將進(jìn)一步研讀Scrapy的文檔，研究怎樣把GooSeeker的gsExtractor封裝成Scrapy需要的Spider。

4，文檔修改歷史

2016-06-13：V1.0，首次發(fā)布

GPU云服務(wù)器云服務(wù)器 scrapy爬蟲入門 scrapy爬蟲程序程序語(yǔ)言入門 python入門程序

文章版權(quán)歸作者所有，未經(jīng)允許請(qǐng)勿轉(zhuǎn)載,若此文章存在違規(guī)行為，您可以聯(lián)系管理員刪除。

轉(zhuǎn)載請(qǐng)注明本文地址：http://systransis.cn/yun/38003.html

發(fā)表評(píng)論

登陸后可評(píng)論

0條評(píng)論

baiy

男|高級(jí)講師

我要關(guān)注我要私信

TA的文章

虛擬主機(jī)怎么上傳文件-虛擬主機(jī)怎么上傳文件？

閱讀 819·2021-09-22 16:01
Contabo，新增NVME硬盤，加1歐可以升級(jí) 100G NVMe

閱讀 2103·2021-08-20 09:37
CSS小技巧（一）：iconfont的使用

閱讀 1702·2019-08-30 15:54
小程序?qū)崿F(xiàn)橫向滑塊，超過(guò)10個(gè)則出現(xiàn)查看更多

閱讀 1704·2019-08-30 15:44
文檔合集

閱讀 850·2019-08-28 18:23
JavaScript學(xué)習(xí)第十天筆記（繼承）

閱讀 3026·2019-08-26 12:17
Node.js child_process模塊解讀

閱讀 1030·2019-08-26 11:56
vue-cli中怎么基于axios去封裝方法

閱讀 1549·2019-08-23 16:20

成人国产在线小视频_日韩寡妇人妻调教在线播放_色成人www永久在线观看_2018国产精品久久_亚洲欧美高清在线30p_亚洲少妇综合一区_黄色在线播放国产_亚洲另类技巧小说校园_国产主播xx日韩_a级毛片在线免费

資訊專欄INFORMATION COLUMN

上云采購(gòu)季！| 2核2G4M爆款云服務(wù)器低至59元/年，更有多臺(tái)、長(zhǎng)期優(yōu)惠，快來(lái)選購(gòu)！

Scrapy入門程序點(diǎn)評(píng)

相關(guān)文章

首次公開，整理12年積累的博客收藏夾，零距離展示《收藏夾吃灰》系列博客

python

Scrapy的架構(gòu)初探

**基于 Python 的 Scrapy 爬蟲入門：環(huán)境搭建**

Scrapy 框架入門簡(jiǎn)介

發(fā)表評(píng)論

0條評(píng)論

baiy

男|高級(jí)講師

TA的文章

虛擬主機(jī)怎么上傳文件-虛擬主機(jī)怎么上傳文件？

Contabo，新增NVME硬盤，加1歐可以升級(jí) 100G NVMe

CSS小技巧（一）：iconfont的使用

小程序?qū)崿F(xiàn)橫向滑塊，超過(guò)10個(gè)則出現(xiàn)查看更多

文檔合集

JavaScript學(xué)習(xí)第十天筆記（繼承）

Node.js child_process模塊解讀

vue-cli中怎么基于axios去封裝方法

最新活動(dòng)

資訊專欄INFORMATION COLUMN

上云采購(gòu)季！| 2核2G4M爆款云服務(wù)器低至59元/年，更有多臺(tái)、長(zhǎng)期優(yōu)惠，快來(lái)選購(gòu)！

Scrapy入門程序點(diǎn)評(píng)

相關(guān)文章

發(fā)表評(píng)論

0條評(píng)論

男|高級(jí)講師

TA的文章

最新活動(dòng)

上云采購(gòu)季！| 2核2G4M爆款云服務(wù)器低至59元/年，更有多臺(tái)、長(zhǎng)期優(yōu)惠，快來(lái)選購(gòu)！