摘要:提升篇之配置增加并發(fā)并發(fā)是指同時處理的的數(shù)量。其有全局限制和局部每個網站的限制。使用級別來報告這些信息。在進行通用爬取時并不需要,搜索引擎則忽略。禁止能減少使用率及爬蟲在內存中記錄的蹤跡,提高性能。
scrapy提升篇之配置 增加并發(fā)
降低log級別并發(fā)是指同時處理的request的數(shù)量。其有全局限制和局部(每個網站)的限制。
Scrapy默認的全局并發(fā)限制對同時爬取大量網站的情況并不適用,因此您需要增加這個值。 增加多少取決于您的爬蟲能占用多少CPU。 一般開始可以設置為 100 。不過最好的方式是做一些測試,獲得Scrapy進程占取CPU與并發(fā)數(shù)的關系。 為了優(yōu)化性能,您應該選擇一個能使CPU占用率在80%-90%的并發(fā)數(shù)
在setting.py文件中寫上CONCURRENT_REQUESTS = 100,scrapy中默認的并發(fā)數(shù)是32
禁止cookies當進行通用爬取時,一般您所注意的僅僅是爬取的速率以及遇到的錯誤。 Scrapy使用 INFO log級別來報告這些信息。為了減少CPU使用率(及記錄log存儲的要求), 在生產環(huán)境中進行通用爬取時您不應該使用 DEBUG log級別。 不過在開發(fā)的時候使用 DEBUG 應該還能接受。
setting.py文件中設置LOG_LEVEL = "INFO"
禁止重試除非您 真的 需要,否則請禁止cookies。在進行通用爬取時cookies并不需要, (搜索引擎則忽略cookies)。禁止cookies能減少CPU使用率及Scrapy爬蟲在內存中記錄的蹤跡,提高性能。
COOKIES_ENABLED = False
減少下載超時對失敗的HTTP請求進行重試會減慢爬取的效率,尤其是當站點響應很慢(甚至失敗)時, 訪問這樣的站點會造成超時并重試多次。這是不必要的,同時也占用了爬蟲爬取其他站點的能力。
RETRY_ENABLED = False
禁止重定向如果您對一個非常慢的連接進行爬取(一般對通用爬蟲來說并不重要), 減小下載超時能讓卡住的連接能被快速的放棄并解放處理其他站點的能力。
DOWNLOAD_TIMEOUT = 15,其中15是設置的下載超時時間
使用user_agent池除非您對跟進重定向感興趣,否則請考慮關閉重定向。 當進行通用爬取時,一般的做法是保存重定向的地址,并在之后的爬取進行解析。 這保證了每批爬取的request數(shù)目在一定的數(shù)量, 否則重定向循環(huán)可能會導致爬蟲在某個站點耗費過多資源。
REDIRECT_ENABLED = False
使用ip代理池詳細使用方法請看設置請求池
設置延遲因為本人是學生黨,因此暫時找到不到比較好的代理,所以這里只是寫了一個一般的設置代理池的方法,不過在以后會寫一個更好的代理池,用數(shù)據實現(xiàn),詳情請看代理ip設置方法
啟用調試工具 命令行調試DOWMLOAD_DELY=3,設置延遲下載可以避免被發(fā)現(xiàn)
編輯器中的調試scrapy shell url 查看網頁,不過這種方式可能對于要請求頭的網頁不行,對于一般的網頁還是可以的
scrapy view shell 用來查看動態(tài)加載的網頁,如果查看的網頁用了動態(tài)加載,那么用這個命令行打開的網頁就是不完整的,肯定缺少了什么
在頁面的任意位置添加如下代碼
from scrapy.shell import inspect_response def paser(self,response): inspect_response(response,self) #當程序運行到這里就會跳出終端,并且在終端出現(xiàn)調試命令,當然這個可以隨便寫在哪里暫停和恢復爬蟲
不按照robots.txt初學者最頭疼的事情就是沒有處理好異常,當爬蟲爬到一半的時候突然因為錯誤而中斷了,但是這時又不能從中斷的地方開始繼續(xù)爬,頓時感覺心里日了狗,但是這里有一個方法可以暫時的存儲你爬的狀態(tài),當爬蟲中斷的時候繼續(xù)打開后依然可以從中斷的地方爬,不過雖說持久化可以有效的處理,但是要注意的是當使用cookie臨時的模擬登錄狀態(tài)的時候要注意cookie的有效期
只需要在setting.py中JOB_DIR=file_name 其中填的是你的文件目錄,注意這里的目錄不允許共享,只能存儲多帶帶的一個spdire的運行狀態(tài),如果你不想在從中斷的地方開始運行,只需要將這個文件夾刪除即可
當然還有其他的放法:scrapy crawl somespider -s JOBDIR=crawls/somespider-1,這個是在終端啟動爬蟲的時候調用的,可以通過ctr+c中斷,恢復還是輸入上面的命令
配置請求頭ROBOTSTXT_OBEY = False
只需要在settings中取消相應的設置即可
DEFAULT_REQUEST_HEADERS={{ "Accept": "text/html,application/xhtml+xml,application/xml;q=0.9,*/*;q=0.8", "Accept-Language": "en", "User-Agent":"......" #在此處設置 }}更多文章請移步本人博客
文章版權歸作者所有,未經允許請勿轉載,若此文章存在違規(guī)行為,您可以聯(lián)系管理員刪除。
轉載請注明本文地址:http://systransis.cn/yun/44339.html
摘要:下載器下載器負責獲取頁面數(shù)據并提供給引擎,而后提供給。下載器中間件下載器中間件是在引擎及下載器之間的特定鉤子,處理傳遞給引擎的。一旦頁面下載完畢,下載器生成一個該頁面的,并將其通過下載中間件返回方向發(fā)送給引擎。 作者:xiaoyu微信公眾號:Python數(shù)據科學知乎:Python數(shù)據分析師 在爬蟲的路上,學習scrapy是一個必不可少的環(huán)節(jié)。也許有好多朋友此時此刻也正在接觸并學習sc...
摘要:月日,谷歌正式發(fā)布了的。到底能不能成為跨平臺開發(fā)終極之選是基于前端誕生的,但是對前端開發(fā)來說,的環(huán)境配置很麻煩,需要原生的平臺知識,還要擔心遇上網絡問題?,F(xiàn)在已經不是曾經的小眾框架,這兩年里它已經逐步成長為主流的跨平臺開發(fā)框架之一。 ...
摘要:是一個構建工具,基于的平臺運行,使用的是的模塊化語法。我們使用需要用到的包一個任務,對應一個包,對應一個處理邏輯對應的是同步任務,從左到右,依次執(zhí)行任務。時間長對應的是異步任務,效率高,時間短。 gulp 是一個構建工具,基于Node.js的平臺運行,使用的是commonJs的模塊化語法。 我們使用gulp需要用到的包 一個TASK任務,對應一個包,對應一個處理邏輯、 gulp.s...
摘要:是一個構建工具,基于的平臺運行,使用的是的模塊化語法。我們使用需要用到的包一個任務,對應一個包,對應一個處理邏輯對應的是同步任務,從左到右,依次執(zhí)行任務。時間長對應的是異步任務,效率高,時間短。 gulp 是一個構建工具,基于Node.js的平臺運行,使用的是commonJs的模塊化語法。 我們使用gulp需要用到的包 一個TASK任務,對應一個包,對應一個處理邏輯、 gulp.s...
閱讀 1345·2021-11-15 11:37
閱讀 2222·2021-09-23 11:21
閱讀 1307·2019-08-30 15:55
閱讀 2115·2019-08-30 15:55
閱讀 2823·2019-08-30 15:52
閱讀 2830·2019-08-30 11:12
閱讀 1583·2019-08-29 18:45
閱讀 1895·2019-08-29 14:04