Scrapy：python3下的第一次運(yùn)行測(cè)試

dack 發(fā)布于2019-07-25 10:30 / 2774人閱讀

摘要：，引言的架構(gòu)初探一文講解了的架構(gòu)，本文就實(shí)際來(lái)安裝運(yùn)行一下爬蟲(chóng)。第一次運(yùn)行的測(cè)試成功，接下來(lái)的工作接下來(lái)，我們將使用來(lái)實(shí)現(xiàn)網(wǎng)絡(luò)爬蟲(chóng)，省掉對(duì)每個(gè)人工去生成和測(cè)試的工作量。，文檔修改歷史，首次發(fā)布

1，引言

《Scrapy的架構(gòu)初探》一文講解了Scrapy的架構(gòu)，本文就實(shí)際來(lái)安裝運(yùn)行一下Scrapy爬蟲(chóng)。本文以官網(wǎng)的tutorial作為例子，完整的代碼可以在github上下載。

2，運(yùn)行環(huán)境配置

本次測(cè)試的環(huán)境是：Windows10， Python3.4.3 32bit

安裝Scrapy ： $ pip install Scrapy #實(shí)際安裝時(shí)，由于服務(wù)器狀態(tài)的不穩(wěn)定，出現(xiàn)好幾次中途退出的情況

3，編寫(xiě)運(yùn)行第一個(gè)Scrapy爬蟲(chóng)

3.1. 生成一個(gè)新項(xiàng)目：tutorial

$ scrapy startproject tutorial

項(xiàng)目目錄結(jié)構(gòu)如下：

3.2. 定義要抓取的item

# -*- coding: utf-8 -*-

# Define here the models for your scraped items
#
# See documentation in:
# http://doc.scrapy.org/en/latest/topics/items.html

import scrapy

class DmozItem(scrapy.Item):
    title = scrapy.Field()
    link = scrapy.Field()
    desc = scrapy.Field()

3.3. 定義Spider

import scrapy
from tutorial.items import DmozItem

class DmozSpider(scrapy.Spider):
    name = "dmoz"
    allowed_domains = ["dmoz.org"]
    start_urls = [
        "http://www.dmoz.org/Computers/Programming/Languages/Python/Books/",
        "http://www.dmoz.org/Computers/Programming/Languages/Python/Resources/"
    ]

    def parse(self, response):
        for sel in response.xpath("http://ul/li"):
            item = DmozItem()
            item["title"] = sel.xpath("a/text()").extract()
            item["link"] = sel.xpath("a/@href").extract()
            item["desc"] = sel.xpath("text()").extract()
            yield item

3.4. 運(yùn)行

$ scrapy crawl dmoz -o item.json

1) 結(jié)果報(bào)錯(cuò)：
A) ImportError: cannot import name "_win32stdio"
B) ImportError: No module named "win32api"

2) 查錯(cuò)過(guò)程：查看官方的FAQ和stackoverflow上的信息，原來(lái)是scrapy在python3上測(cè)試還不充分，還有小問(wèn)題。

3) 解決過(guò)程：
A) 需要手工去下載twisted/internet下的 _win32stdio 和 _pollingfile，存放到python目錄的libsitepackagestwistedinternet下
B) 下載并安裝pywin32

再次運(yùn)行，成功！在控制臺(tái)上可以看到scrapy的輸出信息，待運(yùn)行完成退出后，到項(xiàng)目目錄打開(kāi)結(jié)果文件items.json，可以看到里面以json格式存儲(chǔ)的爬取結(jié)果。

[
{"title": ["        About       "], "desc": [" ", " "], "link": ["/docs/en/about.html"]},
{"title": ["   Become an Editor "], "desc": [" ", " "], "link": ["/docs/en/help/become.html"]},
{"title": ["            Suggest a Site          "], "desc": [" ", " "], "link": ["/docs/en/add.html"]},
{"title": [" Help             "], "desc": [" ", " "], "link": ["/docs/en/help/helpmain.html"]},
{"title": [" Login                       "], "desc": [" ", " "], "link": ["/editors/"]},
{"title": [], "desc": [" ", " Share via Facebook "], "link": []},
{"title": [], "desc": [" ", "  Share via Twitter  "], "link": []},
{"title": [], "desc": [" ", " Share via LinkedIn "], "link": []},
{"title": [], "desc": [" ", " Share via e-Mail   "], "link": []},
{"title": [], "desc": [" ", " "], "link": []},
{"title": [], "desc": [" ", "  "], "link": []},
{"title": ["        About       "], "desc": [" ", " "], "link": ["/docs/en/about.html"]},
{"title": ["   Become an Editor "], "desc": [" ", " "], "link": ["/docs/en/help/become.html"]},
{"title": ["            Suggest a Site          "], "desc": [" ", " "], "link": ["/docs/en/add.html"]},
{"title": [" Help             "], "desc": [" ", " "], "link": ["/docs/en/help/helpmain.html"]},
{"title": [" Login                       "], "desc": [" ", " "], "link": ["/editors/"]},
{"title": [], "desc": [" ", " Share via Facebook "], "link": []},
{"title": [], "desc": [" ", "  Share via Twitter  "], "link": []},
{"title": [], "desc": [" ", " Share via LinkedIn "], "link": []},
{"title": [], "desc": [" ", " Share via e-Mail   "], "link": []},
{"title": [], "desc": [" ", " "], "link": []},
{"title": [], "desc": [" ", "  "], "link": []}
]

第一次運(yùn)行scrapy的測(cè)試成功

4，接下來(lái)的工作

接下來(lái)，我們將使用GooSeeker API來(lái)實(shí)現(xiàn)網(wǎng)絡(luò)爬蟲(chóng)，省掉對(duì)每個(gè)item人工去生成和測(cè)試xpath的工作量。目前有2個(gè)計(jì)劃：

在gsExtractor中封裝一個(gè)方法：從xslt內(nèi)容中自動(dòng)提取每個(gè)item的xpath

從gsExtractor的提取結(jié)果中自動(dòng)提取每個(gè)item的結(jié)果

具體選擇哪個(gè)方案，將在接下來(lái)的實(shí)驗(yàn)中確定，并發(fā)布到gsExtractor新版本中。

5，文檔修改歷史

2016-06-15：V1.0，首次發(fā)布

GPU云服務(wù)器云服務(wù)器 scrapy運(yùn)行爬蟲(chóng) 如何運(yùn)行scrapy爬蟲(chóng) 第一次運(yùn)行 java線程運(yùn)行一次

文章版權(quán)歸作者所有，未經(jīng)允許請(qǐng)勿轉(zhuǎn)載,若此文章存在違規(guī)行為，您可以聯(lián)系管理員刪除。

轉(zhuǎn)載請(qǐng)注明本文地址：http://systransis.cn/yun/37998.html

發(fā)表評(píng)論

登陸后可評(píng)論

0條評(píng)論

dack

男|高級(jí)講師

我要關(guān)注我要私信

TA的文章

第一次寫(xiě)博客--自我介紹

閱讀 2411·2021-10-09 09:44
職場(chǎng)中，寧可裝傻，也不要自作聰明！

閱讀 2143·2021-10-08 10:05
網(wǎng)維云-2021新春嘉年華活動(dòng) 鉅惠就現(xiàn)在 2核2G5M云服務(wù)器僅需80元=3個(gè)月購(gòu)買一年更優(yōu)惠

閱讀 3435·2021-07-26 23:38
CSS進(jìn)階篇--Normalize.css的使用（重置表）

閱讀 3013·2019-08-28 18:16
Webpack附錄

閱讀 826·2019-08-26 11:55
【leetcode】2. 兩數(shù)相加

閱讀 1830·2019-08-23 18:29
隱藏火狐和谷歌瀏覽器滾動(dòng)條

閱讀 2045·2019-08-23 18:05
第二集: 從零開(kāi)始實(shí)現(xiàn)一套pc端vue的ui組件庫(kù)(icon組件)

閱讀 1374·2019-08-23 17:02

成人国产在线小视频_日韩寡妇人妻调教在线播放_色成人www永久在线观看_2018国产精品久久_亚洲欧美高清在线30p_亚洲少妇综合一区_黄色在线播放国产_亚洲另类技巧小说校园_国产主播xx日韩_a级毛片在线免费

資訊專欄INFORMATION COLUMN

上云采購(gòu)季！| 2核2G4M爆款云服務(wù)器低至59元/年，更有多臺(tái)、長(zhǎng)期優(yōu)惠，快來(lái)選購(gòu)！

Scrapy：python3下的第一次運(yùn)行測(cè)試

相關(guān)文章

scrapy入門(mén)

Python3網(wǎng)絡(luò)爬蟲(chóng)實(shí)戰(zhàn)---12、部署相關(guān)庫(kù)的安裝：Docker、Scrapyd

***Python3網(wǎng)絡(luò)爬蟲(chóng)實(shí)戰(zhàn)---10、爬蟲(chóng)框架的安裝：PySpider、Scrapy***

scrapy入門(mén)教程——爬取豆瓣電影Top250！

Python3網(wǎng)絡(luò)爬蟲(chóng)實(shí)戰(zhàn)---13、部署相關(guān)庫(kù)ScrapydClient、ScrapydAPI

發(fā)表評(píng)論

0條評(píng)論

dack

男|高級(jí)講師

TA的文章

第一次寫(xiě)博客--自我介紹

職場(chǎng)中，寧可裝傻，也不要自作聰明！

網(wǎng)維云-2021新春嘉年華活動(dòng) 鉅惠就現(xiàn)在 2核2G5M云服務(wù)器僅需80元=3個(gè)月購(gòu)買一年更優(yōu)惠

CSS進(jìn)階篇--Normalize.css的使用（重置表）

Webpack附錄

【leetcode】2. 兩數(shù)相加

隱藏火狐和谷歌瀏覽器滾動(dòng)條

第二集: 從零開(kāi)始實(shí)現(xiàn)一套pc端vue的ui組件庫(kù)(icon組件)

最新活動(dòng)

資訊專欄INFORMATION COLUMN

上云采購(gòu)季！| 2核2G4M爆款云服務(wù)器低至59元/年，更有多臺(tái)、長(zhǎng)期優(yōu)惠，快來(lái)選購(gòu)！

Scrapy：python3下的第一次運(yùn)行測(cè)試

相關(guān)文章

發(fā)表評(píng)論

0條評(píng)論

男|高級(jí)講師

TA的文章

最新活動(dòng)

上云采購(gòu)季！| 2核2G4M爆款云服務(wù)器低至59元/年，更有多臺(tái)、長(zhǎng)期優(yōu)惠，快來(lái)選購(gòu)！