摘要:可以控制包括核心,插件,及組件。默認(rèn)并發(fā)請(qǐng)求的最大值。該選項(xiàng)可以用來(lái)限制爬取速度,減輕服務(wù)器壓力。默認(rèn)下載器超時(shí)時(shí)間單位秒。默認(rèn)保存項(xiàng)目中啟用的及其順序的字典。默認(rèn)的最低級(jí)別。代理設(shè)置示例禁用
Settings
Scrapy設(shè)置(settings)提供了定制Scrapy組件的方法??梢钥刂瓢ê诵?core),插件(extension),pipeline及spider組件。比如 設(shè)置Json Pipeliine、LOG_LEVEL等。
參考文檔:http://scrapy-chs.readthedocs...
BOT_NAME
默認(rèn): "scrapybot"
當(dāng)您使用 startproject 命令創(chuàng)建項(xiàng)目時(shí)其也被自動(dòng)賦值。
CONCURRENT_ITEMS
默認(rèn): 100
Item Processor(即 Item Pipeline) 同時(shí)處理(每個(gè)response的)item的最大值。
CONCURRENT_REQUESTS
默認(rèn): 16
Scrapy downloader 并發(fā)請(qǐng)求(concurrent requests)的最大值。
DEFAULT_REQUEST_HEADERS
默認(rèn): 如下
{ "Accept": "text/html,application/xhtml+xml,application/xml;q=0.9,*/*;q=0.8", "Accept-Language": "en", }
???????????????????????? Scrapy HTTP Request使用的默認(rèn)header。
DEPTH_LIMIT
默認(rèn): 0
爬取網(wǎng)站最大允許的深度(depth)值。如果為0,則沒有限制。
DOWNLOAD_DELAY
默認(rèn): 0
下載器在下載同一個(gè)網(wǎng)站下一個(gè)頁(yè)面前需要等待的時(shí)間。該選項(xiàng)可以用來(lái)限制爬取速度, 減輕服務(wù)器壓力。同時(shí)也支持小數(shù):
DOWNLOAD_DELAY = 0.25 # 250 ms of delay
默認(rèn)情況下,Scrapy在兩個(gè)請(qǐng)求間不等待一個(gè)固定的值, 而是使用0.5到1.5之間的一個(gè)隨機(jī)值 DOWNLOAD_DELAY 的結(jié)果作為等待間隔。
DOWNLOAD_TIMEOUT
默認(rèn): 180
下載器超時(shí)時(shí)間(單位: 秒)。
ITEM_PIPELINES
默認(rèn): {}
保存項(xiàng)目中啟用的pipeline及其順序的字典。該字典默認(rèn)為空,值(value)任意,不過值(value)習(xí)慣設(shè)置在0-1000范圍內(nèi),值越小優(yōu)先級(jí)越高。
ITEM_PIPELINES = { "mySpider.pipelines.SomethingPipeline": 300, "mySpider.pipelines.ItcastJsonPipeline": 800, }
LOG_ENABLED
默認(rèn): True
是否啟用logging。
LOG_ENCODING
默認(rèn): "utf-8"
logging使用的編碼。
LOG_LEVEL
默認(rèn): "DEBUG"
log的最低級(jí)別??蛇x的級(jí)別有: CRITICAL、 ERROR、WARNING、INFO、DEBUG 。
USER_AGENT
默認(rèn): "Scrapy/VERSION (+http://scrapy.org)"
爬取的默認(rèn)User-Agent,除非被覆蓋。
PROXIES: 代理設(shè)置
示例:
PROXIES = [ {"ip_port": "111.11.228.75:80", "password": ""}, {"ip_port": "120.198.243.22:80", "password": ""}, {"ip_port": "111.8.60.9:8123", "password": ""}, {"ip_port": "101.71.27.120:80", "password": ""}, {"ip_port": "122.96.59.104:80", "password": ""}, {"ip_port": "122.224.249.122:8088", "password":""}, ]
COOKIES_ENABLED = False
禁用Cookies
文章版權(quán)歸作者所有,未經(jīng)允許請(qǐng)勿轉(zhuǎn)載,若此文章存在違規(guī)行為,您可以聯(lián)系管理員刪除。
轉(zhuǎn)載請(qǐng)注明本文地址:http://systransis.cn/yun/41419.html
摘要:提升篇之配置增加并發(fā)并發(fā)是指同時(shí)處理的的數(shù)量。其有全局限制和局部每個(gè)網(wǎng)站的限制。使用級(jí)別來(lái)報(bào)告這些信息。在進(jìn)行通用爬取時(shí)并不需要,搜索引擎則忽略。禁止能減少使用率及爬蟲在內(nèi)存中記錄的蹤跡,提高性能。 scrapy提升篇之配置 增加并發(fā) 并發(fā)是指同時(shí)處理的request的數(shù)量。其有全局限制和局部(每個(gè)網(wǎng)站)的限制。Scrapy默認(rèn)的全局并發(fā)限制對(duì)同時(shí)爬取大量網(wǎng)站的情況并不適用,因此您需要...
摘要:很多人學(xué)習(xí)爬蟲的第一驅(qū)動(dòng)力就是爬取各大網(wǎng)站的妹子圖片,比如比較有名的。最后我們只需要運(yùn)行程序,即可執(zhí)行爬取,程序運(yùn)行命名如下完整代碼我已上傳到微信公眾號(hào)后臺(tái),在癡海公眾號(hào)后臺(tái)回復(fù)即可獲取。本文首發(fā)于公眾號(hào)癡海,后臺(tái)回復(fù)即可獲取最新編程資源。 showImg(https://segmentfault.com/img/remote/1460000016780800); 閱讀文本大概需要 1...
摘要:坦克大戰(zhàn)上簡(jiǎn)介上的坦克大戰(zhàn)相信大家都玩過有逃學(xué)玩坦克的可以自己默默的扣一個(gè)了我們現(xiàn)在長(zhǎng)大了,學(xué)習(xí)游戲開發(fā)了。 寫在前面 上一篇(https://www.tech1024.cn/origi... )說了如何創(chuàng)建項(xiàng)目,并爬去網(wǎng)站內(nèi)容,下面我們說一下如何保存爬去到的數(shù)據(jù) 開始爬取 創(chuàng)建Spider,上一篇我們已經(jīng)創(chuàng)建了ImoocSpider,我們做一下修改,可以連續(xù)下一頁(yè)爬取。scrapyD...
摘要:安裝配置文件內(nèi)容如下守護(hù)進(jìn)程,用這個(gè)的原因?qū)嵲谑且驗(yàn)樘嗳趿?,一看不住就掛了安裝配置導(dǎo)入默認(rèn)配置鏈接管理設(shè)置管理進(jìn)程啟動(dòng)創(chuàng)建文件內(nèi)容如下啟動(dòng)查看如一切正常常用命令查看狀態(tài)重新載入重啟任務(wù)可以更新配置檢查日志爬蟲部署部署項(xiàng)目目錄 scrapyd 安裝: sudo pip install scrapyd 配置: #文件~/.scrapyd.conf #內(nèi)容如下: [scrapyd] egg...
摘要:安裝配置文件內(nèi)容如下守護(hù)進(jìn)程,用這個(gè)的原因?qū)嵲谑且驗(yàn)樘嗳趿?,一看不住就掛了安裝配置導(dǎo)入默認(rèn)配置鏈接管理設(shè)置管理進(jìn)程啟動(dòng)創(chuàng)建文件內(nèi)容如下啟動(dòng)查看如一切正常常用命令查看狀態(tài)重新載入重啟任務(wù)可以更新配置檢查日志爬蟲部署部署項(xiàng)目目錄 scrapyd 安裝: sudo pip install scrapyd 配置: #文件~/.scrapyd.conf #內(nèi)容如下: [scrapyd] egg...
閱讀 3375·2023-04-26 03:05
閱讀 1474·2019-08-30 13:09
閱讀 1916·2019-08-30 13:05
閱讀 897·2019-08-29 12:42
閱讀 1394·2019-08-28 18:18
閱讀 3454·2019-08-28 18:09
閱讀 528·2019-08-28 18:00
閱讀 1726·2019-08-26 12:10