10、web爬蟲講解2—Scrapy框架爬蟲—Scrapy安裝—Scrapy指令

OnlyMyRailgun 發(fā)布于2019-07-31 10:37 / 1464人閱讀

摘要：負(fù)責(zé)處理被提取出來的。典型的處理有清理驗(yàn)證及持久化例如存取到數(shù)據(jù)庫知識庫項(xiàng)目的設(shè)置文件實(shí)現(xiàn)自定義爬蟲的目錄中間件是在引擎及之間的特定鉤子，處理的輸入和輸出及。

【百度云搜索:http://www.bdyss.com】 【搜網(wǎng)盤:http://www.swpan.cn】

Scrapy框架安裝

1、首先，終端執(zhí)行命令升級pip: python -m pip install --upgrade pip
2、安裝，wheel(建議網(wǎng)絡(luò)安裝) pip install wheel
3、安裝，lxml(建議下載安裝)
4、安裝，Twisted(建議下載安裝)
5、安裝，Scrapy(建議網(wǎng)絡(luò)安裝) pip install Scrapy

測試Scrapy是否安裝成功

Scrapy框架指令

scrapy -h ?查看幫助信息

Available commands:
　　bench　　　　　　 Run quick benchmark test?(scrapy bench??硬件測試指令，可以測試當(dāng)前服務(wù)器每分鐘最多能爬多少個(gè)頁面)
　　fetch　　　　　　 ? Fetch a URL using the Scrapy downloader?(scrapy fetch http://www.iqiyi.com/??獲取一個(gè)網(wǎng)頁html源碼)
　　genspider 　　　 ??Generate new spider using pre-defined templates ()
　　runspider　　　　 Run a self-contained spider (without creating a project) ()
　　settings　　　　 ??Get settings values ()
　　shell 　　　　　　 Interactive scraping console ()
　　startproject 　　　Create new project?(cd 進(jìn)入要?jiǎng)?chuàng)建項(xiàng)目的目錄，scrapy startproject 項(xiàng)目名稱?，創(chuàng)建scrapy項(xiàng)目)?
　　version 　　　　 ? Print Scrapy version ()
　　view 　　　　　 ? ?Open URL in browser, as seen by Scrapy ()

創(chuàng)建項(xiàng)目以及項(xiàng)目說明

scrapy startproject adc ?創(chuàng)建項(xiàng)目

項(xiàng)目說明

目錄結(jié)構(gòu)如下：

├── firstCrawler

│?? ├── __init__.py

│?? ├── items.py

│?? ├── middlewares.py

│?? ├── pipelines.py

│?? ├── settings.py

│?? └── spiders

│?? ? ? └── __init__.py

└── scrapy.cfg

scrapy.cfg: 項(xiàng)目的配置文件

tems.py: 項(xiàng)目中的item文件，用來定義解析對象對應(yīng)的屬性或字段。

pipelines.py:?負(fù)責(zé)處理被spider提取出來的item。典型的處理有清理、驗(yàn)證及持久化(例如存取到數(shù)據(jù)庫） [](http://lib.csdn.net/base/mysql "MySQL知識庫")

settings.py: 項(xiàng)目的設(shè)置文件.

spiders：實(shí)現(xiàn)自定義爬蟲的目錄

middlewares.py：Spider中間件是在引擎及Spider之間的特定鉤子(specific hook)，處理spider的輸入(response)和輸出(items及requests)。其提供了一個(gè)簡便的機(jī)制，通過插入自定義代碼來擴(kuò)展Scrapy功能。

項(xiàng)目指令

項(xiàng)目指令是需要cd進(jìn)入項(xiàng)目目錄執(zhí)行的指令

scrapy -h ?項(xiàng)目指令幫助

Available commands:
　　bench　　　　 Run quick benchmark test
　　check　　　　 Check spider contracts
　　crawl　　　　?? Run a spider
　　edit 　　　　 ?? Edit spider
　　fetch　　　　 ?Fetch a URL using the Scrapy downloader
　　genspider　　? Generate new spider using pre-defined templates
　　list 　　　　　?List available spiders
　　parse　　　　 Parse URL (using its spider) and print the results
　　runspider 　　 Run a self-contained spider (without creating a project)
　　settings 　　? ?Get settings values
　　shell　　　　 Interactive scraping console
　　startproject 　?Create new project
　　version　　? ? ?Print Scrapy version?(scrapy version??查看scrapy版本信息)
　　view　　　　? Open URL in browser, as seen by Scrapy?(scrapy view http://www.zhimaruanjian.com/??下載一個(gè)網(wǎng)頁并打開)

創(chuàng)建爬蟲文件

創(chuàng)建爬蟲文件是根據(jù)scrapy的母版來創(chuàng)建爬蟲文件的

scrapy genspider -l??查看scrapy創(chuàng)建爬蟲文件可用的母版

Available templates:母版說明
　　basic　　 ? ?　　創(chuàng)建基礎(chǔ)爬蟲文件

　　crawl　　　　 ? ?創(chuàng)建自動爬蟲文件
　　csvfeed　　 ? ? ?創(chuàng)建爬取csv數(shù)據(jù)爬蟲文件

　　xmlfeed　　　 ?創(chuàng)建爬取xml數(shù)據(jù)爬蟲文件

創(chuàng)建一個(gè)基礎(chǔ)母版爬蟲，其他同理

scrapy genspider ?-t ?母版名稱 ?爬蟲文件名稱 ?要爬取的域名?創(chuàng)建一個(gè)基礎(chǔ)母版爬蟲，其他同理
如：scrapy genspider ?-t ?basic ?pach ?baidu.com

scrapy check 爬蟲文件名稱?測試一個(gè)爬蟲文件是否合規(guī)
如：scrapy check pach

scrapy crawl 爬蟲名稱??執(zhí)行爬蟲文件，顯示日志【重點(diǎn)】

scrapy crawl 爬蟲名稱 --nolog??執(zhí)行爬蟲文件，不顯示日志【重點(diǎn)】
【轉(zhuǎn)載自：http://www.lqkweb.com】

云服務(wù)器 GPU云服務(wù)器爬蟲框架scrapy scrapy框架編寫爬蟲 python爬蟲框架scrapy scrapy 爬蟲

文章版權(quán)歸作者所有，未經(jīng)允許請勿轉(zhuǎn)載,若此文章存在違規(guī)行為，您可以聯(lián)系管理員刪除。

轉(zhuǎn)載請注明本文地址：http://systransis.cn/yun/44133.html

發(fā)表評論

登陸后可評論

0條評論

OnlyMyRailgun

男|高級講師

我要關(guān)注我要私信

TA的文章

安裝tensorflow命令

閱讀 3220·2023-04-26 01:30
在npm 包 coa 和 rc 中發(fā)現(xiàn)惡意代碼，它們每周下載量達(dá) 2300 萬次

閱讀 682·2021-11-08 13:15
桔子數(shù)據(jù)：美國CN2 GIA/聯(lián)通9929/香港CN2/日本CN2 VPS;500GB流量/50Mb

閱讀 1806·2021-09-24 10:35
如何購買云主機(jī)-我需要云存儲為什么要先買云主機(jī)？

閱讀 1017·2021-09-22 15:41
前端面試每日3+1——第108天

閱讀 1938·2019-08-30 15:44
WEB前端資源集（一）

閱讀 609·2019-08-30 13:22
細(xì)說C3選擇器

閱讀 1018·2019-08-30 13:06
用vue + leancloud開發(fā)一個(gè)免費(fèi)的博客

閱讀 1213·2019-08-29 13:22

成人国产在线小视频_日韩寡妇人妻调教在线播放_色成人www永久在线观看_2018国产精品久久_亚洲欧美高清在线30p_亚洲少妇综合一区_黄色在线播放国产_亚洲另类技巧小说校园_国产主播xx日韩_a级毛片在线免费

資訊專欄INFORMATION COLUMN

上云采購季！| 2核2G4M爆款云服務(wù)器低至59元/年，更有多臺、長期優(yōu)惠，快來選購！

10、web爬蟲講解2—Scrapy框架爬蟲—Scrapy安裝—Scrapy指令

相關(guān)文章

scrapy-redis分布式爬蟲框架詳解

**12、web爬蟲講解2—Scrapy框架爬蟲—Scrapy模擬瀏覽器登錄—獲取Scrapy框架Coo**

**python的scrapy框架爬取懶人聽書網(wǎng)站**

**11、web爬蟲講解2—Scrapy框架爬蟲—Scrapy使用**

發(fā)表評論

0條評論

OnlyMyRailgun

男|高級講師

TA的文章

安裝tensorflow命令

在npm 包 coa 和 rc 中發(fā)現(xiàn)惡意代碼，它們每周下載量達(dá) 2300 萬次

桔子數(shù)據(jù)：美國CN2 GIA/聯(lián)通9929/香港CN2/日本CN2 VPS;500GB流量/50Mb

如何購買云主機(jī)-我需要云存儲為什么要先買云主機(jī)？

前端面試每日3+1——第108天

WEB前端資源集（一）

細(xì)說C3選擇器

用vue + leancloud開發(fā)一個(gè)免費(fèi)的博客

最新活動

資訊專欄INFORMATION COLUMN

上云采購季！| 2核2G4M爆款云服務(wù)器低至59元/年，更有多臺、長期優(yōu)惠，快來選購！

10、web爬蟲講解2—Scrapy框架爬蟲—Scrapy安裝—Scrapy指令

相關(guān)文章

發(fā)表評論

0條評論

男|高級講師

TA的文章

最新活動

上云采購季！| 2核2G4M爆款云服務(wù)器低至59元/年，更有多臺、長期優(yōu)惠，快來選購！

10、web爬蟲講解2—Scrapy框架爬蟲—Scrapy安裝—Scrapy指令