23、 Python快速開發(fā)分布式搜索引擎Scrapy精講—craw scrapy item lo

QiuyueZhong 發(fā)布于2019-07-31 11:27 / 2201人閱讀

摘要：百度云搜索，搜各種資料搜網(wǎng)盤，搜各種資料用命令創(chuàng)建自動爬蟲文件創(chuàng)建爬蟲文件是根據(jù)的母版來創(chuàng)建爬蟲文件的查看創(chuàng)建爬蟲文件可用的母版母版說明創(chuàng)建基礎(chǔ)爬蟲文件創(chuàng)建自動爬蟲文件創(chuàng)建爬取數(shù)據(jù)爬蟲文件創(chuàng)建爬取數(shù)據(jù)爬蟲文件創(chuàng)建一個基礎(chǔ)母版爬蟲，其他同理

【百度云搜索，搜各種資料:http://www.bdyss.cn】 【搜網(wǎng)盤，搜各種資料:http://www.swpan.cn】

用命令創(chuàng)建自動爬蟲文件

創(chuàng)建爬蟲文件是根據(jù)scrapy的母版來創(chuàng)建爬蟲文件的

scrapy genspider -l??查看scrapy創(chuàng)建爬蟲文件可用的母版

Available templates:母版說明
　　basic　　 ? ?　　創(chuàng)建基礎(chǔ)爬蟲文件

　　crawl　　　　 ? ?創(chuàng)建自動爬蟲文件
　　csvfeed　　 ? ? ?創(chuàng)建爬取csv數(shù)據(jù)爬蟲文件

　　xmlfeed　　　 ?創(chuàng)建爬取xml數(shù)據(jù)爬蟲文件

創(chuàng)建一個基礎(chǔ)母版爬蟲，其他同理

scrapy genspider ?-t ?母版名稱 ?爬蟲文件名稱 ?要爬取的域名?創(chuàng)建一個基礎(chǔ)母版爬蟲，其他同理
如：scrapy genspider -t?crawl?lagou www.lagou.com

第一步，配置items.py接收數(shù)據(jù)字段

default_output_processor = TakeFirst()默認利用ItemLoader類，加載items容器類填充數(shù)據(jù)，是列表類型，可以通過TakeFirst()方法，獲取到列表里的內(nèi)容

input_processor = MapCompose(預處理函數(shù))設(shè)置數(shù)據(jù)字段的預處理函數(shù)，可以是多個函數(shù)

#?-*-?coding:?utf-8?-*-

#?Define?here?the?models?for?your?scraped?items
#
#?See?documentation?in:
#?http://doc.scrapy.org/en/latest/topics/items.html
#items.py,文件是專門用于，接收爬蟲獲取到的數(shù)據(jù)信息的，就相當于是容器文件

import?scrapy
from?scrapy.loader.processors?import?MapCompose,TakeFirst
from?scrapy.loader?import?ItemLoader????????????????#導入ItemLoader類也就加載items容器類填充數(shù)據(jù)

class?LagouItemLoader(ItemLoader):??????????????????#自定義Loader繼承ItemLoader類，在爬蟲頁面調(diào)用這個類填充數(shù)據(jù)到Item類
????default_output_processor?=?TakeFirst()??????????#默認利用ItemLoader類，加載items容器類填充數(shù)據(jù)，是列表類型，可以通過TakeFirst()方法，獲取到列表里的內(nèi)容

def?tianjia(value):?????????????????????????????????#自定義數(shù)據(jù)預處理函數(shù)
????return?"叫賣錄音網(wǎng)"+value????????????????????????#將處理后的數(shù)據(jù)返給Item

class?LagouItem(scrapy.Item):???????????????????????#設(shè)置爬蟲獲取到的信息容器類
????title?=?scrapy.Field(???????????????????????????#接收爬蟲獲取到的title信息
????????input_processor?=?MapCompose(tianjia),??????#將數(shù)據(jù)預處理函數(shù)名稱傳入MapCompose方法里處理，數(shù)據(jù)預處理函數(shù)的形式參數(shù)value會自動接收字段title
????)

第二步，編寫自動爬蟲與利用ItemLoader類加載items容器類填充數(shù)據(jù)

自動爬蟲
Rule()設(shè)置爬蟲規(guī)則
　　參數(shù)：
　　LinkExtractor()設(shè)置url規(guī)則
　　callback="回調(diào)函數(shù)名稱"
　　follow=True 表示在抓取頁面繼續(xù)深入

LinkExtractor()對爬蟲獲取到的url做規(guī)則判斷處理
　　參數(shù)：
　　allow= r"jobs/" 是一個正則表達式，表示符合這個url格式的，才提取
　　deny= r"jobs/" 是一個正則表達式，表示符合這個url格式的，不提取拋棄掉，與allow相反
　　allow_domains= www.lagou.com/ 表示這個域名下的連接才提取
　　deny_domains= www.lagou.com/ 表示這個域名下的連接不提取拋棄
　　restrict_xpaths= xpath表達式表示可以用xpath表達式限定爬蟲只提取一個頁面指定區(qū)域的URL
　　restrict_css= css選擇器，表示可以用css選擇器限定爬蟲只提取一個頁面指定區(qū)域的URL
　　tags= "a" 表示爬蟲通過a標簽去尋找url,默認已經(jīng)設(shè)置，默認即可
　　attrs= "href" 表示獲取到a標簽的href屬性，默認已經(jīng)設(shè)置，默認即可

?利用自定義Loader類繼承ItemLoader類，加載items容器類填充數(shù)據(jù)

*ItemLoader()實例化一個ItemLoader對象來加載items容器類，填充數(shù)據(jù)，如果是自定義Loader繼承的ItemLoader同樣的用法
　　參數(shù)：
　　第一個參數(shù)：要填充數(shù)據(jù)的items容器類注意加上括號，
　　第二個參數(shù)：response*

ItemLoader對象下的方法：
　　add_xpath("字段名稱","xpath表達式")方法，用xpath表達式獲取數(shù)據(jù)填充到指定字段
　　add_css("字段名稱","css選擇器")方法，用css選擇器獲取數(shù)據(jù)填充到指定字段
　　add_value("字段名稱",字符串內(nèi)容)方法，將指定字符串數(shù)據(jù)填充到指定字段
　　load_item()方法無參，將所有數(shù)據(jù)生成，load_item()方法被yield后數(shù)據(jù)被填充items容器指定類的各個字段

?爬蟲文件

#?-*-?coding:?utf-8?-*-
import?scrapy
from?scrapy.linkextractors?import?LinkExtractor
from?scrapy.spiders?import?CrawlSpider,?Rule
from?adc.items?import?LagouItem,LagouItemLoader??#導入items容器類,和ItemLoader類

class?LagouSpider(CrawlSpider):?????????????????????#創(chuàng)建爬蟲類
????name?=?"lagou"??????????????????????????????????#爬蟲名稱
????allowed_domains?=?["www.luyin.org"]?????????????#起始域名
????start_urls?=?["http://www.luyin.org/"]??????????#起始url

????rules?=?(
????????#配置抓取列表頁規(guī)則
????????Rule(LinkExtractor(allow=("ggwa/.*")),?follow=True),

????????#配置抓取內(nèi)容頁規(guī)則
????????Rule(LinkExtractor(allow=("post/d+.html.*")),?callback="parse_job",?follow=True),
????)

????def?parse_job(self,?response):??????????????????#回調(diào)函數(shù)，注意：因為CrawlS模板的源碼創(chuàng)建了parse回調(diào)函數(shù)，所以切記我們不能創(chuàng)建parse名稱的函數(shù)
????????#利用ItemLoader類，加載items容器類填充數(shù)據(jù)
????????item_loader?=?LagouItemLoader(LagouItem(),?response=response)
????????item_loader.add_xpath("title","/html/head/title/text()")
????????article_item?=?item_loader.load_item()

????????yield?article_item

items.py文件與爬蟲文件的原理圖

【轉(zhuǎn)載自：http://www.lqkweb.com】

云服務(wù)器 GPU云服務(wù)器 scrapy分布式爬蟲 scrapy分布式爬蟲實例 scrapy python Python安裝Scrapy

文章版權(quán)歸作者所有，未經(jīng)允許請勿轉(zhuǎn)載,若此文章存在違規(guī)行為，您可以聯(lián)系管理員刪除。

轉(zhuǎn)載請注明本文地址：http://systransis.cn/yun/45139.html

發(fā)表評論

登陸后可評論

0條評論

QiuyueZhong

男|高級講師

我要關(guān)注我要私信

TA的文章

ftp的主機用戶名和密碼是什么-ftp主機地址是什么？

閱讀 3066·2021-09-22 14:59
基于R和Python的極大似然估計的牛頓法實現(xiàn)

閱讀 1896·2021-09-22 10:02
OuluCloud：CN2 GIA線路高防禦服務(wù)器/香港/聖何塞/洛杉磯/加拿大/500GDDOS防

閱讀 2132·2021-09-04 16:48
JS基礎(chǔ)入門篇（三十四）— 面向?qū)ο螅ㄒ唬?/a>

閱讀 2271·2019-08-30 15:53

移動端:web前端實用小技巧

閱讀 2976·2019-08-30 11:27
word-wrap & word-break & white-space

閱讀 3416·2019-08-29 18:35
前端 CSS : 2# 純 CSS 實現(xiàn)多彩的 Buttons(box-shadow)

閱讀 973·2019-08-29 17:07
自制，簡易仿京東微信小程序demo

閱讀 2681·2019-08-29 13:27

成人国产在线小视频_日韩寡妇人妻调教在线播放_色成人www永久在线观看_2018国产精品久久_亚洲欧美高清在线30p_亚洲少妇综合一区_黄色在线播放国产_亚洲另类技巧小说校园_国产主播xx日韩_a级毛片在线免费

資訊專欄INFORMATION COLUMN

上云采購季！| 2核2G4M爆款云服務(wù)器低至59元/年，更有多臺、長期優(yōu)惠，快來選購！

23、 Python快速開發(fā)分布式搜索引擎Scrapy精講—craw scrapy item lo

相關(guān)文章

**21、 Python快速開發(fā)分布式搜索引擎Scrapy精講—爬蟲數(shù)據(jù)保存**

**20、 Python快速開發(fā)分布式搜索引擎Scrapy精講—編寫spiders爬蟲文件循環(huán)抓取內(nèi)容**

**18、 Python快速開發(fā)分布式搜索引擎Scrapy精講—Scrapy啟動文件的配置—xpath表**

24、Python快速開發(fā)分布式搜索引擎Scrapy精講—爬蟲和反爬的對抗過程以及策略—scrapy

**25、Python快速開發(fā)分布式搜索引擎Scrapy精講—Requests請求和Response響應(yīng)**

發(fā)表評論

0條評論

QiuyueZhong

男|高級講師

TA的文章

ftp的主機用戶名和密碼是什么-ftp主機地址是什么？

基于R和Python的極大似然估計的牛頓法實現(xiàn)

OuluCloud：CN2 GIA線路高防禦服務(wù)器/香港/聖何塞/洛杉磯/加拿大/500GDDOS防

JS基礎(chǔ)入門篇（三十四）— 面向?qū)ο螅ㄒ唬?/a>

移動端:web前端實用小技巧

word-wrap & word-break & white-space

前端 CSS : 2# 純 CSS 實現(xiàn)多彩的 Buttons(box-shadow)

自制，簡易仿京東微信小程序demo

最新活動

資訊專欄INFORMATION COLUMN

上云采購季！| 2核2G4M爆款云服務(wù)器低至59元/年，更有多臺、長期優(yōu)惠，快來選購！

23、 Python快速開發(fā)分布式搜索引擎Scrapy精講—craw scrapy item lo

相關(guān)文章

發(fā)表評論

0條評論

男|高級講師

TA的文章

最新活動

上云采購季！| 2核2G4M爆款云服務(wù)器低至59元/年，更有多臺、長期優(yōu)惠，快來選購！

23、 Python快速開發(fā)分布式搜索引擎Scrapy精講—craw scrapy item lo