成人国产在线小视频_日韩寡妇人妻调教在线播放_色成人www永久在线观看_2018国产精品久久_亚洲欧美高清在线30p_亚洲少妇综合一区_黄色在线播放国产_亚洲另类技巧小说校园_国产主播xx日韩_a级毛片在线免费

資訊專欄INFORMATION COLUMN

Scrapy 之 settings

pekonchan / 392人閱讀

摘要:可以控制包括核心,插件,及組件。默認(rèn)并發(fā)請(qǐng)求的最大值。該選項(xiàng)可以用來(lái)限制爬取速度,減輕服務(wù)器壓力。默認(rèn)下載器超時(shí)時(shí)間單位秒。默認(rèn)保存項(xiàng)目中啟用的及其順序的字典。默認(rèn)的最低級(jí)別。代理設(shè)置示例禁用

Settings

Scrapy設(shè)置(settings)提供了定制Scrapy組件的方法??梢钥刂瓢ê诵?core),插件(extension),pipeline及spider組件。比如 設(shè)置Json Pipeliine、LOG_LEVEL等。

參考文檔:http://scrapy-chs.readthedocs...


內(nèi)置設(shè)置參考手冊(cè)

BOT_NAME

默認(rèn): "scrapybot"

當(dāng)您使用 startproject 命令創(chuàng)建項(xiàng)目時(shí)其也被自動(dòng)賦值。

CONCURRENT_ITEMS

默認(rèn): 100

Item Processor(即 Item Pipeline) 同時(shí)處理(每個(gè)response的)item的最大值。

CONCURRENT_REQUESTS

默認(rèn): 16

Scrapy downloader 并發(fā)請(qǐng)求(concurrent requests)的最大值。

DEFAULT_REQUEST_HEADERS

默認(rèn): 如下

     {
     "Accept": "text/html,application/xhtml+xml,application/xml;q=0.9,*/*;q=0.8",
     "Accept-Language": "en",
     }

???????????????????????? Scrapy HTTP Request使用的默認(rèn)header。

DEPTH_LIMIT

默認(rèn): 0

爬取網(wǎng)站最大允許的深度(depth)值。如果為0,則沒有限制。

DOWNLOAD_DELAY

默認(rèn): 0

下載器在下載同一個(gè)網(wǎng)站下一個(gè)頁(yè)面前需要等待的時(shí)間。該選項(xiàng)可以用來(lái)限制爬取速度, 減輕服務(wù)器壓力。同時(shí)也支持小數(shù):

DOWNLOAD_DELAY = 0.25 # 250 ms of delay

默認(rèn)情況下,Scrapy在兩個(gè)請(qǐng)求間不等待一個(gè)固定的值, 而是使用0.5到1.5之間的一個(gè)隨機(jī)值 DOWNLOAD_DELAY 的結(jié)果作為等待間隔。

DOWNLOAD_TIMEOUT

默認(rèn): 180

下載器超時(shí)時(shí)間(單位: 秒)。

ITEM_PIPELINES

默認(rèn): {}

保存項(xiàng)目中啟用的pipeline及其順序的字典。該字典默認(rèn)為空,值(value)任意,不過值(value)習(xí)慣設(shè)置在0-1000范圍內(nèi),值越小優(yōu)先級(jí)越高。

            ITEM_PIPELINES = {
            "mySpider.pipelines.SomethingPipeline": 300,
            "mySpider.pipelines.ItcastJsonPipeline": 800,
            }

LOG_ENABLED

默認(rèn): True

是否啟用logging。

LOG_ENCODING

默認(rèn): "utf-8"

logging使用的編碼。

LOG_LEVEL

默認(rèn): "DEBUG"

log的最低級(jí)別??蛇x的級(jí)別有: CRITICAL、 ERROR、WARNING、INFO、DEBUG 。

USER_AGENT

默認(rèn): "Scrapy/VERSION (+http://scrapy.org)"

爬取的默認(rèn)User-Agent,除非被覆蓋。

PROXIES: 代理設(shè)置

示例:

   PROXIES = [
      {"ip_port": "111.11.228.75:80", "password": ""},
      {"ip_port": "120.198.243.22:80", "password": ""},
      {"ip_port": "111.8.60.9:8123", "password": ""},
      {"ip_port": "101.71.27.120:80", "password": ""},
      {"ip_port": "122.96.59.104:80", "password": ""},
      {"ip_port": "122.224.249.122:8088", "password":""},
    ]

COOKIES_ENABLED = False

禁用Cookies

文章版權(quán)歸作者所有,未經(jīng)允許請(qǐng)勿轉(zhuǎn)載,若此文章存在違規(guī)行為,您可以聯(lián)系管理員刪除。

轉(zhuǎn)載請(qǐng)注明本文地址:http://systransis.cn/yun/41419.html

相關(guān)文章

  • scrapy提升篇配置

    摘要:提升篇之配置增加并發(fā)并發(fā)是指同時(shí)處理的的數(shù)量。其有全局限制和局部每個(gè)網(wǎng)站的限制。使用級(jí)別來(lái)報(bào)告這些信息。在進(jìn)行通用爬取時(shí)并不需要,搜索引擎則忽略。禁止能減少使用率及爬蟲在內(nèi)存中記錄的蹤跡,提高性能。 scrapy提升篇之配置 增加并發(fā) 并發(fā)是指同時(shí)處理的request的數(shù)量。其有全局限制和局部(每個(gè)網(wǎng)站)的限制。Scrapy默認(rèn)的全局并發(fā)限制對(duì)同時(shí)爬取大量網(wǎng)站的情況并不適用,因此您需要...

    劉永祥 評(píng)論0 收藏0
  • Scrapy 實(shí)戰(zhàn)爬取妹子圖

    摘要:很多人學(xué)習(xí)爬蟲的第一驅(qū)動(dòng)力就是爬取各大網(wǎng)站的妹子圖片,比如比較有名的。最后我們只需要運(yùn)行程序,即可執(zhí)行爬取,程序運(yùn)行命名如下完整代碼我已上傳到微信公眾號(hào)后臺(tái),在癡海公眾號(hào)后臺(tái)回復(fù)即可獲取。本文首發(fā)于公眾號(hào)癡海,后臺(tái)回復(fù)即可獲取最新編程資源。 showImg(https://segmentfault.com/img/remote/1460000016780800); 閱讀文本大概需要 1...

    Achilles 評(píng)論0 收藏0
  • 保存數(shù)據(jù)到MySql數(shù)據(jù)庫(kù)——我用scrapy寫爬蟲(二)

    摘要:坦克大戰(zhàn)上簡(jiǎn)介上的坦克大戰(zhàn)相信大家都玩過有逃學(xué)玩坦克的可以自己默默的扣一個(gè)了我們現(xiàn)在長(zhǎng)大了,學(xué)習(xí)游戲開發(fā)了。 寫在前面 上一篇(https://www.tech1024.cn/origi... )說了如何創(chuàng)建項(xiàng)目,并爬去網(wǎng)站內(nèi)容,下面我們說一下如何保存爬去到的數(shù)據(jù) 開始爬取 創(chuàng)建Spider,上一篇我們已經(jīng)創(chuàng)建了ImoocSpider,我們做一下修改,可以連續(xù)下一頁(yè)爬取。scrapyD...

    Kross 評(píng)論0 收藏0
  • CentOS7Scrapy爬蟲部署

    摘要:安裝配置文件內(nèi)容如下守護(hù)進(jìn)程,用這個(gè)的原因?qū)嵲谑且驗(yàn)樘嗳趿?,一看不住就掛了安裝配置導(dǎo)入默認(rèn)配置鏈接管理設(shè)置管理進(jìn)程啟動(dòng)創(chuàng)建文件內(nèi)容如下啟動(dòng)查看如一切正常常用命令查看狀態(tài)重新載入重啟任務(wù)可以更新配置檢查日志爬蟲部署部署項(xiàng)目目錄 scrapyd 安裝: sudo pip install scrapyd 配置: #文件~/.scrapyd.conf #內(nèi)容如下: [scrapyd] egg...

    elisa.yang 評(píng)論0 收藏0
  • CentOS7Scrapy爬蟲部署

    摘要:安裝配置文件內(nèi)容如下守護(hù)進(jìn)程,用這個(gè)的原因?qū)嵲谑且驗(yàn)樘嗳趿?,一看不住就掛了安裝配置導(dǎo)入默認(rèn)配置鏈接管理設(shè)置管理進(jìn)程啟動(dòng)創(chuàng)建文件內(nèi)容如下啟動(dòng)查看如一切正常常用命令查看狀態(tài)重新載入重啟任務(wù)可以更新配置檢查日志爬蟲部署部署項(xiàng)目目錄 scrapyd 安裝: sudo pip install scrapyd 配置: #文件~/.scrapyd.conf #內(nèi)容如下: [scrapyd] egg...

    scq000 評(píng)論0 收藏0

發(fā)表評(píng)論

0條評(píng)論

pekonchan

|高級(jí)講師

TA的文章

閱讀更多
最新活動(dòng)
閱讀需要支付1元查看
<