Scrapy基本用法

URLOS 發(fā)布于2019-07-31 10:05 / 948人閱讀

安裝scrapy

不同操作系統(tǒng)安裝操作不同，可以直接看官方文檔Install Scrapy

創(chuàng)建一個(gè)項(xiàng)目

在命令行輸入

scrapy startproject tutorial

進(jìn)入項(xiàng)目目錄創(chuàng)建一個(gè)spider

cd tutorial
scrapy genspider quotes domain.com

import scrapy

class QuotesSpider(scrapy.Spider):
    name = "quotes"

    def start_requests(self):
        urls = [
            "http://quotes.toscrape.com/page/1/",
            "http://quotes.toscrape.com/page/2/",
        ]
        for url in urls:
            yield scrapy.Request(url=url, callback=self.parse)

    def parse(self, response):
        page = response.url.split("/")[-2]
        filename = "quotes-%s.html" % page
        with open(filename, "wb") as f:
            f.write(response.body)
        self.log("Saved file %s" % filename)

運(yùn)行scrapy，在項(xiàng)目頂級(jí)目錄下輸入命令

scrapy crawl quotes

在QuotesSpider這個(gè)類(lèi)里，name指明spider的名稱(chēng)，在start_requests函數(shù)里發(fā)出請(qǐng)求，用parse函數(shù)處理請(qǐng)求返回的結(jié)果，start_requests函數(shù)可以替換為start_urls列表，scrapy會(huì)自動(dòng)幫我們發(fā)出請(qǐng)求，并默認(rèn)用parse函數(shù)處理，還可以設(shè)置一些其它參數(shù)，詳見(jiàn)Document

選擇器用法

scrapy內(nèi)置css選擇器和xpath選擇器，當(dāng)然你也可以選擇使用其他的解析庫(kù)，比如BeautifulSoup，我們簡(jiǎn)單用scrapy shell展示一下scrapy內(nèi)置選擇器的用法，在命令行中輸入

scrapy shell https://docs.scrapy.org/en/latest/_static/selectors-sample1.html

示例代碼


 
  
  Example website
 
 
  
   Name: My image 1 

   Name: My image 2 

   Name: My image 3 

   Name: My image 4 

   Name: My image 5

# 獲取標(biāo)題
# selector可以去掉
# extract返回的是列表
response.selector.xpath("http://title/text()").extract_first()
response.selector.css("title::text").extract_first()

# 獲取a標(biāo)簽里href參數(shù)內(nèi)容
response.xpath("http://a/@href").extract()
response.css("a::attr(href)").extract()

# 混合獲取img標(biāo)簽的src屬性
response.xpath("http://div[@id="images"]").css("img::attr(src)").extract()

# 獲取a標(biāo)簽中包含image的href屬性
response.xpath("http://a[contains(@href, "image")]/@href").extract()
response.css("a[href*=image]::attr(href)").extract()

# 使用正則表達(dá)式
response.css("a::text").re("Name:(.*)")
response.css("a::text").re_first("Name:(.*)")

# 添加default參數(shù)指定默認(rèn)提取信息
response.css("aa").extract_first(default="")

Item Pipeline用法

通過(guò)parse處理函數(shù)返回的Item可以用Item Pipeline進(jìn)行加工處理，主要是數(shù)據(jù)清洗，格式化。

# 過(guò)濾掉相同的item

class DuplicatePipeline(object):
    def __init__(self):
        self.items = set()

    def process_item(self, item, spider):
        if item["id"] in self.items:
            raise DropItem("Duplicate item found: %s" % item["id"])
        else:
            self.items.add(item["id"])
            return item

需要在settings里的注冊(cè)一下自定義的Pipeline

ITEM_PIPELINES = {
     "tutorial.pipelines.TutorialPipeline": 300,
     "tutorial.pipelines.DuplicatePipeline": 200,
}

數(shù)字越小，優(yōu)先級(jí)越高

GPU云服務(wù)器云服務(wù)器基本用法 JSTL基本用法 scrapy scrapy 爬蟲(chóng)

文章版權(quán)歸作者所有，未經(jīng)允許請(qǐng)勿轉(zhuǎn)載,若此文章存在違規(guī)行為，您可以聯(lián)系管理員刪除。

轉(zhuǎn)載請(qǐng)注明本文地址：http://systransis.cn/yun/43235.html

發(fā)表評(píng)論

登陸后可評(píng)論

0條評(píng)論

URLOS

男|高級(jí)講師

我要關(guān)注我要私信

TA的文章

#11.11#RAKsmart：爆款服務(wù)器低至$30/月起，云服務(wù)器全場(chǎng)7折，SSL證書(shū)免費(fèi)送！

閱讀 1263·2021-11-08 13:25
C++繼承

閱讀 1452·2021-10-13 09:40
從零開(kāi)始的C語(yǔ)言

閱讀 2783·2021-09-28 09:35
如何在搬瓦工Ubuntu系統(tǒng)添加和刪除用戶(hù)的 sudo 權(quán)限

閱讀 748·2021-09-23 11:54
【從0開(kāi)始入門(mén)python】一個(gè)半月的三萬(wàn)字學(xué)習(xí)筆記匯總?。?！

閱讀 1139·2021-09-02 15:11
vue v-if 和v-show

閱讀 2446·2019-08-30 13:18
CSS魔法堂：hasLayout原來(lái)是這樣的！

閱讀 1681·2019-08-30 12:51
盒子模型

閱讀 2697·2019-08-29 18:39

成人国产在线小视频_日韩寡妇人妻调教在线播放_色成人www永久在线观看_2018国产精品久久_亚洲欧美高清在线30p_亚洲少妇综合一区_黄色在线播放国产_亚洲另类技巧小说校园_国产主播xx日韩_a级毛片在线免费

資訊專(zhuān)欄INFORMATION COLUMN

上云采購(gòu)季！| 2核2G4M爆款云服務(wù)器低至59元/年，更有多臺(tái)、長(zhǎng)期優(yōu)惠，快來(lái)選購(gòu)！

Scrapy基本用法

相關(guān)文章

零基礎(chǔ)如何學(xué)爬蟲(chóng)技術(shù)

非計(jì)算機(jī)專(zhuān)業(yè)小白自學(xué)爬蟲(chóng)全指南（附資源）

Python 爬蟲(chóng)面試題 170 道：2019 版

scrapy學(xué)習(xí)筆記

發(fā)表評(píng)論

0條評(píng)論

URLOS

男|高級(jí)講師

TA的文章

#11.11#RAKsmart：爆款服務(wù)器低至$30/月起，云服務(wù)器全場(chǎng)7折，SSL證書(shū)免費(fèi)送！

C++繼承

從零開(kāi)始的C語(yǔ)言

如何在搬瓦工Ubuntu系統(tǒng)添加和刪除用戶(hù)的 sudo 權(quán)限

【從0開(kāi)始入門(mén)python】一個(gè)半月的三萬(wàn)字學(xué)習(xí)筆記匯總?。?！

vue v-if 和v-show

CSS魔法堂：hasLayout原來(lái)是這樣的！

盒子模型

最新活動(dòng)

資訊專(zhuān)欄INFORMATION COLUMN

上云采購(gòu)季！| 2核2G4M爆款云服務(wù)器低至59元/年，更有多臺(tái)、長(zhǎng)期優(yōu)惠，快來(lái)選購(gòu)！

Scrapy基本用法

相關(guān)文章

發(fā)表評(píng)論

0條評(píng)論

男|高級(jí)講師

TA的文章

最新活動(dòng)

上云采購(gòu)季！| 2核2G4M爆款云服務(wù)器低至59元/年，更有多臺(tái)、長(zhǎng)期優(yōu)惠，快來(lái)選購(gòu)！