Scrapy學(xué)習(xí)（二）入門(mén)

Astrian 發(fā)布于2019-07-25 11:28 / 421人閱讀

摘要：快速入門(mén)接上篇學(xué)習(xí)一安裝，安裝后，我們利用一個(gè)簡(jiǎn)單的例子來(lái)熟悉如何使用創(chuàng)建一個(gè)爬蟲(chóng)項(xiàng)目。創(chuàng)建一個(gè)項(xiàng)目在已配置好的環(huán)境下輸入系統(tǒng)將在當(dāng)前目錄生成一個(gè)的項(xiàng)目文件。這部分才是業(yè)務(wù)的核心部分。提取的方式有幾種。具體代碼詳見(jiàn)入門(mén)項(xiàng)目

快速入門(mén)

接上篇Scrapy學(xué)習(xí)（一）安裝，安裝后，我們利用一個(gè)簡(jiǎn)單的例子來(lái)熟悉如何使用Scrapy創(chuàng)建一個(gè)爬蟲(chóng)項(xiàng)目。

創(chuàng)建一個(gè)Scrapy項(xiàng)目

在已配置好的環(huán)境下輸入

scrapy startproject dmoz

系統(tǒng)將在當(dāng)前目錄生成一個(gè)myproject的項(xiàng)目文件。該文件的目錄結(jié)構(gòu)如下

dmoz/    # 項(xiàng)目根目錄
   scrapy.cfg    # 項(xiàng)目配置文件
   dmoz/    # 項(xiàng)目模塊
       __init__.py
        items.py    # 項(xiàng)目item文件，有點(diǎn)類似Django中的模型
        pipelines.py    # 項(xiàng)目pipelines文件，負(fù)責(zé)數(shù)據(jù)的操作和存儲(chǔ)
        settings.py    # 項(xiàng)目的設(shè)置文件.
        spiders/    # 項(xiàng)目spider目錄，編寫(xiě)的爬蟲(chóng)腳步都放此目錄下
            __init__.py

接下來(lái)我們以dmoz.org為爬取目標(biāo)。開(kāi)始變現(xiàn)簡(jiǎn)單的爬蟲(chóng)項(xiàng)目。

編寫(xiě)items

在items.py中編寫(xiě)我們所需的數(shù)據(jù)的模型

from scrapy.item import Item, Field

class Website(Item):
    name = Field()
    description = Field()
    url = Field()

這個(gè)模型用來(lái)填充我們爬取的數(shù)據(jù)

編寫(xiě)Spider

在spiders文件下新建爬蟲(chóng)文件。這部分才是業(yè)務(wù)的核心部分。
首先創(chuàng)建一個(gè)繼承scrapy.spiders.Spider的類
并且定義如下三個(gè)屬性

name 標(biāo)識(shí)spider

start_urls 啟動(dòng)爬蟲(chóng)時(shí)進(jìn)行爬取的url列表，默認(rèn)為空

parse() 每個(gè)初始的url下載后的response都會(huì)傳到該方法內(nèi)，在這個(gè)方法里可以對(duì)數(shù)據(jù)進(jìn)行處理。

from scrapy.spiders import Spider
from scrapy.selector import Selector
from dirbot.items import Website

class DmozSpider(Spider):
    name = "dmoz"
    allowed_domains = ["dmoz.org"]
    start_urls = [
        "http://www.dmoz.org/Computers/Programming/Languages/Python/Books/",
        "http://www.dmoz.org/Computers/Programming/Languages/Python/Resources/",
    ]

    def parse(self, response):
        sites = response.css("#site-list-content > div.site-item > div.title-and-desc")
        items = []

        for site in sites:
            item = Website()
            item["name"] = site.css(
                "a > div.site-title::text").extract_first().strip()
            item["url"] = site.xpath(
                "a/@href").extract_first().strip()
            item["description"] = site.css(
                "div.site-descr::text").extract_first().strip()
            items.append(item)
        return items

其中值得注意的是，在parse方法內(nèi)，我們可以用Selector選擇器來(lái)提取網(wǎng)站中我們所需的數(shù)據(jù)。提取的方式有幾種。

xpath() 傳入xpath表達(dá)式獲取節(jié)點(diǎn)值

css() 傳入css表達(dá)式獲取節(jié)點(diǎn)值

re() 傳入正則表達(dá)式獲取節(jié)點(diǎn)值 # 此方法本人未測(cè)試

運(yùn)行并保存數(shù)據(jù)

接下來(lái)我們運(yùn)行爬蟲(chóng)，并將爬取的數(shù)據(jù)存儲(chǔ)到j(luò)son中

scrapy crawl dmoz -o items.json

其他

在運(yùn)行爬蟲(chóng)的過(guò)程中，我遇到了如下報(bào)錯(cuò)：

KeyError: "Spider not found: dmoz

這個(gè)是因?yàn)槲业膕pider類中設(shè)置的name的值和我scrapy crawl運(yùn)行的spider不一致導(dǎo)致的。

具體代碼詳見(jiàn)：
scrapy入門(mén)項(xiàng)目

云服務(wù)器 GPU云服務(wù)器 scrapy爬蟲(chóng)入門(mén) 深度學(xué)習(xí)二編程學(xué)習(xí)入門(mén)學(xué)習(xí) 學(xué)習(xí)機(jī)器學(xué)習(xí)入門(mén)

文章版權(quán)歸作者所有，未經(jīng)允許請(qǐng)勿轉(zhuǎn)載,若此文章存在違規(guī)行為，您可以聯(lián)系管理員刪除。

轉(zhuǎn)載請(qǐng)注明本文地址：http://systransis.cn/yun/38422.html

發(fā)表評(píng)論

登陸后可評(píng)論

0條評(píng)論

Astrian

男|高級(jí)講師

我要關(guān)注我要私信

TA的文章

Python基礎(chǔ)之輸入、輸出與高階賦值

閱讀 1978·2021-11-23 09:51
軟件需求工程十個(gè)題測(cè)試

閱讀 889·2021-11-19 09:40
如何保護(hù)您不了解的數(shù)據(jù)資產(chǎn)免受網(wǎng)絡(luò)攻擊?

閱讀 838·2021-10-27 14:20
寶塔面板，升級(jí)默認(rèn)python2.7為python3.X，并共存！

閱讀 5033·2021-10-09 09:52
曲鳥(niǎo)全棧UI自動(dòng)化教學(xué)(二)：環(huán)境搭建與第一個(gè)Selenium腳本

閱讀 3310·2021-10-09 09:44
程序員的之路。瀏覽器新標(biāo)簽頁(yè)

閱讀 1739·2021-10-08 10:05
Authy – 二次密碼保護(hù)驗(yàn)證必備軟件工具（親測(cè)Authy下載和使用）

閱讀 5109·2021-09-09 11:47
[譯] CSS 載入機(jī)制的未來(lái)趨勢(shì)

閱讀 3488·2019-08-30 12:47

成人国产在线小视频_日韩寡妇人妻调教在线播放_色成人www永久在线观看_2018国产精品久久_亚洲欧美高清在线30p_亚洲少妇综合一区_黄色在线播放国产_亚洲另类技巧小说校园_国产主播xx日韩_a级毛片在线免费

資訊專欄INFORMATION COLUMN

上云采購(gòu)季！| 2核2G4M爆款云服務(wù)器低至59元/年，更有多臺(tái)、長(zhǎng)期優(yōu)惠，快來(lái)選購(gòu)！

Scrapy學(xué)習(xí)（二）入門(mén)

相關(guān)文章

零基礎(chǔ)如何學(xué)爬蟲(chóng)技術(shù)

首次公開(kāi)，整理12年積累的博客收藏夾，零距離展示《收藏夾吃灰》系列博客

Scrapy學(xué)習(xí)（三）爬取豆瓣圖書(shū)信息

非計(jì)算機(jī)專業(yè)小白自學(xué)爬蟲(chóng)全指南（附資源）

發(fā)表評(píng)論

0條評(píng)論

Astrian

男|高級(jí)講師

TA的文章

Python基礎(chǔ)之輸入、輸出與高階賦值

軟件需求工程十個(gè)題測(cè)試

如何保護(hù)您不了解的數(shù)據(jù)資產(chǎn)免受網(wǎng)絡(luò)攻擊?

寶塔面板，升級(jí)默認(rèn)python2.7為python3.X，并共存！

曲鳥(niǎo)全棧UI自動(dòng)化教學(xué)(二)：環(huán)境搭建與第一個(gè)Selenium腳本

程序員的之路。瀏覽器新標(biāo)簽頁(yè)

Authy – 二次密碼保護(hù)驗(yàn)證必備軟件工具（親測(cè)Authy下載和使用）

[譯] CSS 載入機(jī)制的未來(lái)趨勢(shì)

最新活動(dòng)

資訊專欄INFORMATION COLUMN

上云采購(gòu)季！| 2核2G4M爆款云服務(wù)器低至59元/年，更有多臺(tái)、長(zhǎng)期優(yōu)惠，快來(lái)選購(gòu)！

Scrapy學(xué)習(xí)（二） 入門(mén)

相關(guān)文章

發(fā)表評(píng)論

0條評(píng)論

男|高級(jí)講師

TA的文章

最新活動(dòng)

上云采購(gòu)季！| 2核2G4M爆款云服務(wù)器低至59元/年，更有多臺(tái)、長(zhǎng)期優(yōu)惠，快來(lái)選購(gòu)！

Scrapy學(xué)習(xí)（二）入門(mén)