Scrapy 之 settings

pekonchan 發(fā)布于2019-07-30 15:42 / 392人閱讀

摘要：可以控制包括核心，插件，及組件。默認(rèn)并發(fā)請(qǐng)求的最大值。該選項(xiàng)可以用來(lái)限制爬取速度，減輕服務(wù)器壓力。默認(rèn)下載器超時(shí)時(shí)間單位秒。默認(rèn)保存項(xiàng)目中啟用的及其順序的字典。默認(rèn)的最低級(jí)別。代理設(shè)置示例禁用

Settings

Scrapy設(shè)置(settings)提供了定制Scrapy組件的方法?？梢钥刂瓢ê诵?core)，插件(extension)，pipeline及spider組件。比如設(shè)置Json Pipeliine、LOG_LEVEL等。

參考文檔：http://scrapy-chs.readthedocs...

內(nèi)置設(shè)置參考手冊(cè)

BOT_NAME

默認(rèn): "scrapybot"

當(dāng)您使用 startproject 命令創(chuàng)建項(xiàng)目時(shí)其也被自動(dòng)賦值。

CONCURRENT_ITEMS

默認(rèn): 100

Item Processor(即 Item Pipeline) 同時(shí)處理(每個(gè)response的)item的最大值。

CONCURRENT_REQUESTS

默認(rèn): 16

Scrapy downloader 并發(fā)請(qǐng)求(concurrent requests)的最大值。

DEFAULT_REQUEST_HEADERS

默認(rèn): 如下

     {
     "Accept": "text/html,application/xhtml+xml,application/xml;q=0.9,*/*;q=0.8",
     "Accept-Language": "en",
     }

???????????????????????? Scrapy HTTP Request使用的默認(rèn)header。

DEPTH_LIMIT

默認(rèn): 0

爬取網(wǎng)站最大允許的深度(depth)值。如果為0，則沒有限制。

DOWNLOAD_DELAY

默認(rèn): 0

下載器在下載同一個(gè)網(wǎng)站下一個(gè)頁(yè)面前需要等待的時(shí)間。該選項(xiàng)可以用來(lái)限制爬取速度，減輕服務(wù)器壓力。同時(shí)也支持小數(shù):

DOWNLOAD_DELAY = 0.25 # 250 ms of delay

默認(rèn)情況下，Scrapy在兩個(gè)請(qǐng)求間不等待一個(gè)固定的值，而是使用0.5到1.5之間的一個(gè)隨機(jī)值 DOWNLOAD_DELAY 的結(jié)果作為等待間隔。

DOWNLOAD_TIMEOUT

默認(rèn): 180

下載器超時(shí)時(shí)間(單位: 秒)。

ITEM_PIPELINES

默認(rèn): {}

保存項(xiàng)目中啟用的pipeline及其順序的字典。該字典默認(rèn)為空，值(value)任意，不過值(value)習(xí)慣設(shè)置在0-1000范圍內(nèi)，值越小優(yōu)先級(jí)越高。

            ITEM_PIPELINES = {
            "mySpider.pipelines.SomethingPipeline": 300,
            "mySpider.pipelines.ItcastJsonPipeline": 800,
            }

LOG_ENABLED

默認(rèn): True

是否啟用logging。

LOG_ENCODING

默認(rèn): "utf-8"

logging使用的編碼。

LOG_LEVEL

默認(rèn): "DEBUG"

log的最低級(jí)別?？蛇x的級(jí)別有: CRITICAL、 ERROR、WARNING、INFO、DEBUG 。

USER_AGENT

默認(rèn): "Scrapy/VERSION (+http://scrapy.org)"

爬取的默認(rèn)User-Agent，除非被覆蓋。

PROXIES：代理設(shè)置

示例：

   PROXIES = [
      {"ip_port": "111.11.228.75:80", "password": ""},
      {"ip_port": "120.198.243.22:80", "password": ""},
      {"ip_port": "111.8.60.9:8123", "password": ""},
      {"ip_port": "101.71.27.120:80", "password": ""},
      {"ip_port": "122.96.59.104:80", "password": ""},
      {"ip_port": "122.224.249.122:8088", "password":""},
    ]

COOKIES_ENABLED = False

禁用Cookies

GPU云服務(wù)器云服務(wù)器 scrapy scrapy 爬蟲 settings setting

文章版權(quán)歸作者所有，未經(jīng)允許請(qǐng)勿轉(zhuǎn)載,若此文章存在違規(guī)行為，您可以聯(lián)系管理員刪除。

轉(zhuǎn)載請(qǐng)注明本文地址：http://systransis.cn/yun/41419.html

發(fā)表評(píng)論

登陸后可評(píng)論

0條評(píng)論

pekonchan

男|高級(jí)講師

我要關(guān)注我要私信

TA的文章

tensorflow用cpu訓(xùn)練

閱讀 3375·2023-04-26 03:05
Flexbox完全指南（譯）

閱讀 1474·2019-08-30 13:09
CSS 無(wú)圖片技術(shù)總結(jié)

閱讀 1916·2019-08-30 13:05
清除Css中select的下拉箭頭樣式

閱讀 897·2019-08-29 12:42
avalon js實(shí)現(xiàn)仿google plus圖片多張拖動(dòng)排序

閱讀 1394·2019-08-28 18:18
css中應(yīng)該滾瓜爛熟的屬性

閱讀 3454·2019-08-28 18:09
初學(xué)者請(qǐng)注意手寫 css 樣式表的各屬性的順序及 CSScomb 的使用

閱讀 528·2019-08-28 18:00
Javascript 簡(jiǎn)史

閱讀 1726·2019-08-26 12:10

成人国产在线小视频_日韩寡妇人妻调教在线播放_色成人www永久在线观看_2018国产精品久久_亚洲欧美高清在线30p_亚洲少妇综合一区_黄色在线播放国产_亚洲另类技巧小说校园_国产主播xx日韩_a级毛片在线免费

資訊專欄INFORMATION COLUMN

上云采購(gòu)季！| 2核2G4M爆款云服務(wù)器低至59元/年，更有多臺(tái)、長(zhǎng)期優(yōu)惠，快來(lái)選購(gòu)！

Scrapy 之 settings

相關(guān)文章

scrapy提升篇之配置

Scrapy 實(shí)戰(zhàn)之爬取妹子圖

**保存數(shù)據(jù)到MySql數(shù)據(jù)庫(kù)——我用scrapy寫爬蟲（二）**

**CentOS7之Scrapy爬蟲部署**

**CentOS7之Scrapy爬蟲部署**

發(fā)表評(píng)論

0條評(píng)論

pekonchan

男|高級(jí)講師

TA的文章

tensorflow用cpu訓(xùn)練

Flexbox完全指南（譯）

CSS 無(wú)圖片技術(shù)總結(jié)

清除Css中select的下拉箭頭樣式

avalon js實(shí)現(xiàn)仿google plus圖片多張拖動(dòng)排序

css中應(yīng)該滾瓜爛熟的屬性

初學(xué)者請(qǐng)注意手寫 css 樣式表的各屬性的順序及 CSScomb 的使用

Javascript 簡(jiǎn)史

最新活動(dòng)

資訊專欄INFORMATION COLUMN

上云采購(gòu)季！| 2核2G4M爆款云服務(wù)器低至59元/年，更有多臺(tái)、長(zhǎng)期優(yōu)惠，快來(lái)選購(gòu)！

Scrapy 之 settings

相關(guān)文章

發(fā)表評(píng)論

0條評(píng)論

男|高級(jí)講師

TA的文章

最新活動(dòng)

上云采購(gòu)季！| 2核2G4M爆款云服務(wù)器低至59元/年，更有多臺(tái)、長(zhǎng)期優(yōu)惠，快來(lái)選購(gòu)！