成人国产在线小视频_日韩寡妇人妻调教在线播放_色成人www永久在线观看_2018国产精品久久_亚洲欧美高清在线30p_亚洲少妇综合一区_黄色在线播放国产_亚洲另类技巧小说校园_国产主播xx日韩_a级毛片在线免费

資訊專欄INFORMATION COLUMN

scrapy下調(diào)試單個(gè)函數(shù)的方法

yintaolaowanzi / 3557人閱讀

摘要:進(jìn)行抓取任務(wù)時(shí)很苦惱的一點(diǎn)在于為了調(diào)試某個(gè)第三四層以上的跳轉(zhuǎn)鏈接需要等待將前面的鏈接都跑一遍才能確定某個(gè)頁面的函數(shù)是否正確的命令行參數(shù)就是為了解決這一問題官網(wǎng)的描述意思就是網(wǎng)址可選參數(shù)官網(wǎng)給出的例子我的實(shí)踐之路開始運(yùn)行時(shí)結(jié)果總是沒有打印出任

進(jìn)行抓取任務(wù)時(shí)很苦惱的一點(diǎn)在于為了調(diào)試某個(gè)第三,四層以上的跳轉(zhuǎn)鏈接需要等待將前面的鏈接都跑一遍,才能確定某個(gè)頁面的parse函數(shù)是否正確,scrapy的命令行參數(shù) parse就是為了解決這一問題.

官網(wǎng)的描述

Syntax: scrapy parse [options]
意思就是 scrpy parse 網(wǎng)址 可選參數(shù)

官網(wǎng)給出的例子 $ scrapy shell       http://www.example.com/some/page.html
我的實(shí)踐之路

開始運(yùn)行時(shí)結(jié)果總是沒有打印出任何log來,于是將原本0.25的scrapy升級(jí)到1.0
這時(shí)再輸入

scrapy parse http://www.douban.com -c group_parse

報(bào)了這樣的錯(cuò)誤

ERROR: Unable to find spider for: http://www.douban.com

還有可能是這樣的

Traceback (most recent call last):
  File "/usr/local/bin/scrapy", line 11, in 
    sys.exit(execute())
  File "/Library/Python/2.7/site-packages/scrapy/cmdline.py", line 143, in execute
    _run_print_help(parser, _run_command, cmd, args, opts)
  File "/Library/Python/2.7/site-packages/scrapy/cmdline.py", line 89, in _run_print_help
    func(*a, **kw)
  File "/Library/Python/2.7/site-packages/scrapy/cmdline.py", line 150, in _run_command
    cmd.run(args, opts)
  File "/Library/Python/2.7/site-packages/scrapy/commands/parse.py", line 220, in run
    self.set_spidercls(url, opts)
  File "/Library/Python/2.7/site-packages/scrapy/commands/parse.py", line 147, in set_spidercls
    self.spidercls.start_requests = _start_requests
AttributeError: "NoneType" object has no attribute "start_requests"

好吧,自動(dòng)找不到我們就顯示指定下爬蟲的名字
就是在繼承自spider類里定義的那個(gè)name里的值

class douban(Spider):
    name = "douban_spider"

ok 問題解決

文章版權(quán)歸作者所有,未經(jīng)允許請勿轉(zhuǎn)載,若此文章存在違規(guī)行為,您可以聯(lián)系管理員刪除。

轉(zhuǎn)載請注明本文地址:http://systransis.cn/yun/37678.html

相關(guān)文章

  • 爬蟲入門

    摘要:通用網(wǎng)絡(luò)爬蟲通用網(wǎng)絡(luò)爬蟲又稱全網(wǎng)爬蟲,爬取對象從一些種子擴(kuò)充到整個(gè)。為提高工作效率,通用網(wǎng)絡(luò)爬蟲會(huì)采取一定的爬取策略。介紹是一個(gè)國人編寫的強(qiáng)大的網(wǎng)絡(luò)爬蟲系統(tǒng)并帶有強(qiáng)大的。 爬蟲 簡單的說網(wǎng)絡(luò)爬蟲(Web crawler)也叫做網(wǎng)絡(luò)鏟(Web scraper)、網(wǎng)絡(luò)蜘蛛(Web spider),其行為一般是先爬到對應(yīng)的網(wǎng)頁上,再把需要的信息鏟下來。 分類 網(wǎng)絡(luò)爬蟲按照系統(tǒng)結(jié)構(gòu)和實(shí)現(xiàn)技術(shù),...

    defcon 評(píng)論0 收藏0
  • 爬蟲入門

    摘要:通用網(wǎng)絡(luò)爬蟲通用網(wǎng)絡(luò)爬蟲又稱全網(wǎng)爬蟲,爬取對象從一些種子擴(kuò)充到整個(gè)。為提高工作效率,通用網(wǎng)絡(luò)爬蟲會(huì)采取一定的爬取策略。介紹是一個(gè)國人編寫的強(qiáng)大的網(wǎng)絡(luò)爬蟲系統(tǒng)并帶有強(qiáng)大的。 爬蟲 簡單的說網(wǎng)絡(luò)爬蟲(Web crawler)也叫做網(wǎng)絡(luò)鏟(Web scraper)、網(wǎng)絡(luò)蜘蛛(Web spider),其行為一般是先爬到對應(yīng)的網(wǎng)頁上,再把需要的信息鏟下來。 分類 網(wǎng)絡(luò)爬蟲按照系統(tǒng)結(jié)構(gòu)和實(shí)現(xiàn)技術(shù),...

    Invoker 評(píng)論0 收藏0
  • SCrapy爬蟲大戰(zhàn)京東商城

    摘要:爬蟲大戰(zhàn)京東商城引言上一篇已經(jīng)講過怎樣獲取鏈接,怎樣獲得參數(shù)了,詳情請看爬取京東商城普通篇代碼詳解首先應(yīng)該構(gòu)造請求,這里使用這個(gè)方法默認(rèn)調(diào)用的是構(gòu)造請求,如果要改變默認(rèn)的請求,那么必須重載該方法,這個(gè)方法的返回值必須是一個(gè)可迭代的對象,一般 SCrapy爬蟲大戰(zhàn)京東商城 引言 上一篇已經(jīng)講過怎樣獲取鏈接,怎樣獲得參數(shù)了,詳情請看python爬取京東商城普通篇 代碼詳解 首先應(yīng)該構(gòu)造請求...

    noONE 評(píng)論0 收藏0
  • scrapy入門教程3:scrapyshell命令

    摘要:用例運(yùn)行爬蟲命令基本語法是否需要項(xiàng)目存在當(dāng)然是不需要咯貌似這個(gè)命令是不依托一個(gè)項(xiàng)目而直接運(yùn)行一個(gè)爬蟲的命令。用例我終于寫完了,喜歡的就收藏推薦一下吧,這樣我就會(huì)更有動(dòng)力寫新的教程了,哇哈哈 0. 基本環(huán)境說明 本文截圖及運(yùn)行環(huán)境均在Win8上實(shí)現(xiàn)(是的,我放假回家了,家里的機(jī)器是win8的沒有辦法),但基本步驟與win 7環(huán)境基本相同。(應(yīng)該把~)ps:我后來換了臺(tái)win7的電腦,所...

    zhongmeizhi 評(píng)論0 收藏0
  • 從零開始Python爬蟲速成指南

    摘要:內(nèi)容如下是我們準(zhǔn)備爬的初始頁這個(gè)是解析函數(shù),如果不特別指明的話,抓回來的頁面會(huì)由這個(gè)函數(shù)進(jìn)行解析。爬取多個(gè)頁面的原理相同,注意解析翻頁的地址設(shè)定終止條件指定好對應(yīng)的頁面解析函數(shù)即可。后面的數(shù)字表示的是優(yōu)先級(jí)。指明每兩個(gè)請求之間的間隔。 序 本文主要內(nèi)容:以最短的時(shí)間寫一個(gè)最簡單的爬蟲,可以抓取論壇的帖子標(biāo)題和帖子內(nèi)容。 本文受眾:沒寫過爬蟲的萌新。 入門 0.準(zhǔn)備工作 需要準(zhǔn)備的東西:...

    gotham 評(píng)論0 收藏0

發(fā)表評(píng)論

0條評(píng)論

最新活動(dòng)
閱讀需要支付1元查看
<