成人国产在线小视频_日韩寡妇人妻调教在线播放_色成人www永久在线观看_2018国产精品久久_亚洲欧美高清在线30p_亚洲少妇综合一区_黄色在线播放国产_亚洲另类技巧小说校园_国产主播xx日韩_a级毛片在线免费

資訊專欄INFORMATION COLUMN

10、web爬蟲講解2—Scrapy框架爬蟲—Scrapy安裝—Scrapy指令

OnlyMyRailgun / 1464人閱讀

摘要:負(fù)責(zé)處理被提取出來的。典型的處理有清理驗(yàn)證及持久化例如存取到數(shù)據(jù)庫知識庫項(xiàng)目的設(shè)置文件實(shí)現(xiàn)自定義爬蟲的目錄中間件是在引擎及之間的特定鉤子,處理的輸入和輸出及。

【百度云搜索:http://www.bdyss.com】 【搜網(wǎng)盤:http://www.swpan.cn】

Scrapy框架安裝

1、首先,終端執(zhí)行命令升級pip: python -m pip install --upgrade pip
2、安裝,wheel(建議網(wǎng)絡(luò)安裝) pip install wheel
3、安裝,lxml(建議下載安裝)
4、安裝,Twisted(建議下載安裝)
5、安裝,Scrapy(建議網(wǎng)絡(luò)安裝) pip install Scrapy

測試Scrapy是否安裝成功

Scrapy框架指令

scrapy -h ?查看幫助信息

Available commands:
  bench       Run quick benchmark test?(scrapy bench??硬件測試指令,可以測試當(dāng)前服務(wù)器每分鐘最多能爬多少個(gè)頁面)
  fetch       ? Fetch a URL using the Scrapy downloader?(scrapy fetch http://www.iqiyi.com/??獲取一個(gè)網(wǎng)頁html源碼)
  genspider      ??Generate new spider using pre-defined templates ()
  runspider      Run a self-contained spider (without creating a project) ()
  settings      ??Get settings values ()
  shell         Interactive scraping console ()
  startproject     Create new project?(cd 進(jìn)入要?jiǎng)?chuàng)建項(xiàng)目的目錄,scrapy startproject 項(xiàng)目名稱?,創(chuàng)建scrapy項(xiàng)目)?
  version       ? Print Scrapy version ()
  view        ? ?Open URL in browser, as seen by Scrapy ()

創(chuàng)建項(xiàng)目以及項(xiàng)目說明

scrapy startproject adc ?創(chuàng)建項(xiàng)目

項(xiàng)目說明

目錄結(jié)構(gòu)如下:

├── firstCrawler

│?? ├── __init__.py

│?? ├── items.py

│?? ├── middlewares.py

│?? ├── pipelines.py

│?? ├── settings.py

│?? └── spiders

│?? ? ? └── __init__.py

└── scrapy.cfg

scrapy.cfg: 項(xiàng)目的配置文件

tems.py: 項(xiàng)目中的item文件,用來定義解析對象對應(yīng)的屬性或字段。

pipelines.py:?負(fù)責(zé)處理被spider提取出來的item。典型的處理有清理、 驗(yàn)證及持久化(例如存取到數(shù)據(jù)庫) [](http://lib.csdn.net/base/mysql "MySQL知識庫")

settings.py: 項(xiàng)目的設(shè)置文件.

spiders:實(shí)現(xiàn)自定義爬蟲的目錄

middlewares.py:Spider中間件是在引擎及Spider之間的特定鉤子(specific hook),處理spider的輸入(response)和輸出(items及requests)。 其提供了一個(gè)簡便的機(jī)制,通過插入自定義代碼來擴(kuò)展Scrapy功能。

項(xiàng)目指令

項(xiàng)目指令是需要cd進(jìn)入項(xiàng)目目錄執(zhí)行的指令

scrapy -h ?項(xiàng)目指令幫助

Available commands:
  bench      Run quick benchmark test
  check      Check spider contracts
  crawl    ?? Run a spider
  edit      ?? Edit spider
  fetch      ?Fetch a URL using the Scrapy downloader
  genspider  ? Generate new spider using pre-defined templates
  list       ?List available spiders
  parse      Parse URL (using its spider) and print the results
  runspider    Run a self-contained spider (without creating a project)
  settings   ? ?Get settings values
  shell      Interactive scraping console
  startproject  ?Create new project
  version  ? ? ?Print Scrapy version?(scrapy version??查看scrapy版本信息)
  view    ? Open URL in browser, as seen by Scrapy?(scrapy view http://www.zhimaruanjian.com/??下載一個(gè)網(wǎng)頁并打開)

創(chuàng)建爬蟲文件

創(chuàng)建爬蟲文件是根據(jù)scrapy的母版來創(chuàng)建爬蟲文件的

scrapy genspider -l??查看scrapy創(chuàng)建爬蟲文件可用的母版

Available templates:母版說明
  basic   ? ?  創(chuàng)建基礎(chǔ)爬蟲文件

  crawl     ? ?創(chuàng)建自動爬蟲文件
  csvfeed   ? ? ?創(chuàng)建爬取csv數(shù)據(jù)爬蟲文件

  xmlfeed    ?創(chuàng)建爬取xml數(shù)據(jù)爬蟲文件

創(chuàng)建一個(gè)基礎(chǔ)母版爬蟲,其他同理

scrapy genspider ?-t ?母版名稱 ?爬蟲文件名稱 ?要爬取的域名?創(chuàng)建一個(gè)基礎(chǔ)母版爬蟲,其他同理
如:scrapy genspider ?-t ?basic ?pach ?baidu.com

scrapy check 爬蟲文件名稱?測試一個(gè)爬蟲文件是否合規(guī)
如:scrapy check pach

?

scrapy crawl 爬蟲名稱??執(zhí)行爬蟲文件,顯示日志 【重點(diǎn)】

scrapy crawl 爬蟲名稱 --nolog??執(zhí)行爬蟲文件,不顯示日志【重點(diǎn)】
【轉(zhuǎn)載自:http://www.lqkweb.com】

文章版權(quán)歸作者所有,未經(jīng)允許請勿轉(zhuǎn)載,若此文章存在違規(guī)行為,您可以聯(lián)系管理員刪除。

轉(zhuǎn)載請注明本文地址:http://systransis.cn/yun/44133.html

相關(guān)文章

  • scrapy-redis分布式爬蟲框架詳解

    摘要:分布式爬蟲框架詳解隨著互聯(lián)網(wǎng)技術(shù)的發(fā)展與應(yīng)用的普及,網(wǎng)絡(luò)作為信息的載體,已經(jīng)成為社會大眾參與社會生活的一種重要信息渠道。下載器中間件位于引擎和下載器之間的框架,主要是處理引擎與下載器之間的請求及響應(yīng)。 scrapy-redis分布式爬蟲框架詳解 隨著互聯(lián)網(wǎng)技術(shù)的發(fā)展與應(yīng)用的普及,網(wǎng)絡(luò)作為信息的載體,已經(jīng)成為社會大眾參與社會生活的一種重要信息渠道。由于互聯(lián)網(wǎng)是開放的,每個(gè)人都可以在網(wǎng)絡(luò)上...

    myeveryheart 評論0 收藏0
  • 12、web爬蟲講解2Scrapy框架爬蟲Scrapy模擬瀏覽器登錄—獲取Scrapy框架Coo

    摘要:百度云搜索,搜各種資料搜網(wǎng)盤,搜各種資料模擬瀏覽器登錄方法,可以返回一個(gè)請求給爬蟲的起始網(wǎng)站,這個(gè)返回的請求相當(dāng)于,返回的請求會替代里的請求請求,可以設(shè)置,回調(diào)函數(shù)表單提交,第一個(gè)必須參數(shù),上一次響應(yīng)的對象,其他參數(shù),表單內(nèi)容等可以將一個(gè)新 【百度云搜索,搜各種資料:http://www.bdyss.cn】 【搜網(wǎng)盤,搜各種資料:http://www.swpan.cn】 模擬瀏覽器登錄...

    jay_tian 評論0 收藏0
  • python的scrapy框架爬取懶人聽書網(wǎng)站

    摘要:爬蟲項(xiàng)目的管道文件,用來對中的數(shù)據(jù)進(jìn)行進(jìn)一步的加工處理。根據(jù)傳入的正則表達(dá)式對數(shù)據(jù)進(jìn)行提取,返回字符串列表。的作用函數(shù)可創(chuàng)建一個(gè)整數(shù)列表,一般用在循環(huán)中。 項(xiàng)目地址:https://github.com/gejinnvshe...微信公眾號:天字一等 爬取懶人聽書平臺書籍的書名、作者名、分類,后續(xù)還會增加爬取音頻 爬蟲用到的框架:scrapy Anaconda是專注于數(shù)據(jù)分析的Pyth...

    CoffeX 評論0 收藏0
  • 11、web爬蟲講解2Scrapy框架爬蟲Scrapy使用

    摘要:百度云搜索,搜各種資料搜網(wǎng)盤,搜各種資料表達(dá)式表示向下查找層指定標(biāo)簽,如表示查找所有標(biāo)簽表示向下查找一層指定的標(biāo)簽表示查找指定屬性的值可以連綴如屬性名稱屬性值表示查找指定屬性等于指定值的標(biāo)簽可以連綴,如查找名稱等于指定名稱的標(biāo)簽獲取標(biāo)簽文本 【百度云搜索,搜各種資料:http://www.lqkweb.com】 【搜網(wǎng)盤,搜各種資料:http://www.swpan.cn】 xpath...

    trilever 評論0 收藏0

發(fā)表評論

0條評論

最新活動
閱讀需要支付1元查看
<