21、 Python快速開發(fā)分布式搜索引擎Scrapy精講—爬蟲數(shù)據(jù)保存

Alex 發(fā)布于2019-07-31 11:27 / 1390人閱讀

摘要：百度云搜索，搜各種資料搜網(wǎng)盤，搜各種資料注意數(shù)據(jù)保存的操作都是在文件里操作的將數(shù)據(jù)保存為文件是一個信號檢測導入圖片下載器模塊定義數(shù)據(jù)處理類，必須繼承初始化時打開文件為數(shù)據(jù)處理函數(shù)，接收一個，里就是爬蟲最后來的數(shù)據(jù)對象文章標題是

【百度云搜索，搜各種資料:http://www.bdyss.cn】 【搜網(wǎng)盤，搜各種資料:http://www.swpan.cn】

注意：數(shù)據(jù)保存的操作都是在pipelines.py文件里操作的

將數(shù)據(jù)保存為json文件

spider是一個信號檢測

#?-*-?coding:?utf-8?-*-

#?Define?your?item?pipelines?here
#
#?Don"t?forget?to?add?your?pipeline?to?the?ITEM_PIPELINES?setting
#?See:?http://doc.scrapy.org/en/latest/topics/item-pipeline.html
from?scrapy.pipelines.images?import?ImagesPipeline??#導入圖片下載器模塊
import?codecs
import?json

class?AdcPipeline(object):??????????????????????#定義數(shù)據(jù)處理類，必須繼承object
????def?__init__(self):
????????self.file?=?codecs.open("shuju.json",?"w",?encoding="utf-8")??#初始化時打開json文件
????def?process_item(self,?item,?spider):???????#process_item(item)為數(shù)據(jù)處理函數(shù)，接收一個item，item里就是爬蟲最后yield?item?來的數(shù)據(jù)對象
????????#?print("文章標題是："?+?item["title"][0])
????????#?print("文章縮略圖url是："?+?item["img"][0])
????????#?print("文章縮略圖保存路徑是："?+?item["img_tplj"])??#接收圖片下載器填充的，圖片下載后的路徑

????????#將數(shù)據(jù)保存為json文件
????????lines?=?json.dumps(dict(item),?ensure_ascii=False)?+?"
"???#將數(shù)據(jù)對象轉(zhuǎn)換成json格式
????????self.file.write(lines)??????????#將json格式數(shù)據(jù)寫入文件
????????return?item
def?spider_closed(self,spider):?????#創(chuàng)建一個方法繼承spider，spider是一個信號，當前數(shù)據(jù)操作完成后觸發(fā)這個方法
????????self.file.close()???????????????#關(guān)閉打開文件

class?imgPipeline(ImagesPipeline):??????????????????????#自定義一個圖片下載內(nèi)，繼承crapy內(nèi)置的ImagesPipeline圖片下載器類
????def?item_completed(self,?results,?item,?info):??????#使用ImagesPipeline類里的item_completed()方法獲取到圖片下載后的保存路徑
????????for?ok,?value?in?results:
????????????img_lj?=?value["path"]?????#接收圖片保存路徑
????????????#?print(ok)
????????????item["img_tplj"]?=?img_lj??#將圖片保存路徑填充到items.py里的字段里
????????return?item????????????????????#將item給items.py?文件的容器函數(shù)

????#注意：自定義圖片下載器設(shè)置好后，需要在

將數(shù)據(jù)保存到數(shù)據(jù)庫

我們使用一個ORM框架sqlalchemy模塊，保存數(shù)據(jù)

數(shù)據(jù)庫操作文件

#!/usr/bin/env?python
#?-*-?coding:utf-8?-*-

from?sqlalchemy.ext.declarative?import?declarative_base
from?sqlalchemy?import?Column
from?sqlalchemy?import?Integer,?String,?TIMESTAMP
from?sqlalchemy?import?ForeignKey,?UniqueConstraint,?Index
from?sqlalchemy.orm?import?sessionmaker,?relationship
from?sqlalchemy?import?create_engine

#配置數(shù)據(jù)庫引擎信息
ENGINE?=?create_engine("mysql+pymysql://root:[email protected]:3306/cshi?charset=utf8",?max_overflow=10,?echo=True)

Base?=?declarative_base()???????#創(chuàng)建一個SQLORM基類

class?SendMsg(Base):????????????#設(shè)計表
????__tablename__?=?"sendmsg"

????id?=?Column(Integer,?primary_key=True,?autoincrement=True)
????title?=?Column(String(300))
????img_tplj?=?Column(String(300))

def?init_db():
????Base.metadata.create_all(ENGINE)????????#向數(shù)據(jù)庫創(chuàng)建指定表

def?drop_db():
????Base.metadata.drop_all(ENGINE)??????????#向數(shù)據(jù)庫刪除指定表

def?session():
????cls?=?sessionmaker(bind=ENGINE)?????????#創(chuàng)建sessionmaker類,操作表
????return?cls()

#?drop_db()?????????#刪除表
#?init_db()?????????#創(chuàng)建表

pipelines.py文件

#?-*-?coding:?utf-8?-*-

#?Define?your?item?pipelines?here
#
#?Don"t?forget?to?add?your?pipeline?to?the?ITEM_PIPELINES?setting
#?See:?http://doc.scrapy.org/en/latest/topics/item-pipeline.html
from?scrapy.pipelines.images?import?ImagesPipeline??#導入圖片下載器模塊
from?adc?import?shujuku?as?ORM??????????????????????#導入數(shù)據(jù)庫文件

class?AdcPipeline(object):??????????????????????#定義數(shù)據(jù)處理類，必須繼承object
????def?__init__(self):
????????ORM.init_db()???????????????????????????#創(chuàng)建數(shù)據(jù)庫表
????def?process_item(self,?item,?spider):???????#process_item(item)為數(shù)據(jù)處理函數(shù)，接收一個item，item里就是爬蟲最后yield?item?來的數(shù)據(jù)對象
????????print("文章標題是："?+?item["title"][0])
????????print("文章縮略圖url是："?+?item["img"][0])
????????print("文章縮略圖保存路徑是："?+?item["img_tplj"])??#接收圖片下載器填充的，圖片下載后的路徑

????????mysq?=?ORM.session()
????????shuju?=?ORM.SendMsg(title=item["title"][0],?img_tplj=item["img_tplj"])
????????mysq.add(shuju)
????????mysq.commit()
????????return?item

class?imgPipeline(ImagesPipeline):??????????????????????#自定義一個圖片下載內(nèi)，繼承crapy內(nèi)置的ImagesPipeline圖片下載器類
????def?item_completed(self,?results,?item,?info):??????#使用ImagesPipeline類里的item_completed()方法獲取到圖片下載后的保存路徑
????????for?ok,?value?in?results:
????????????img_lj?=?value["path"]?????#接收圖片保存路徑
????????????#?print(ok)
????????????item["img_tplj"]?=?img_lj??#將圖片保存路徑填充到items.py里的字段里
????????return?item????????????????????#將item給items.py?文件的容器函數(shù)

????#注意：自定義圖片下載器設(shè)置好后，需要在

【轉(zhuǎn)載自：http://www.lqkweb.com】

云服務(wù)器 GPU云服務(wù)器 scrapy分布式爬蟲 scrapy分布式爬蟲實例 python爬蟲scrapy python爬蟲框架scrapy

文章版權(quán)歸作者所有，未經(jīng)允許請勿轉(zhuǎn)載,若此文章存在違規(guī)行為，您可以聯(lián)系管理員刪除。

轉(zhuǎn)載請注明本文地址：http://systransis.cn/yun/45126.html

發(fā)表評論

登陸后可評論

0條評論

Alex

男|高級講師

我要關(guān)注我要私信

TA的文章

如何繞過CDN獲取網(wǎng)站的真實IP？手把手教你！

閱讀 1980·2021-11-24 10:45
hostarmada：2周年促銷，虛擬機2折，VPS云服務(wù)器75折，可選新加坡/美國/悉尼/孟買等9

閱讀 1468·2021-11-18 13:15
怎么找到單位監(jiān)控主機登陸密碼-監(jiān)控主機密碼忘記了怎么辦？

閱讀 4562·2021-09-22 15:47
寶塔面板安裝iFileSpace，一鍵搭建專屬的私人網(wǎng)盤系統(tǒng)

閱讀 3941·2021-09-09 11:36
仿寫輪眼修改版

閱讀 2018·2019-08-30 15:44
關(guān)于模塊化、組件化的理解

閱讀 3097·2019-08-29 13:05
清除浮動的方法

閱讀 2510·2019-08-29 12:54
造輪子 - EGGJS的MySQL操作庫

閱讀 2003·2019-08-26 13:47

成人国产在线小视频_日韩寡妇人妻调教在线播放_色成人www永久在线观看_2018国产精品久久_亚洲欧美高清在线30p_亚洲少妇综合一区_黄色在线播放国产_亚洲另类技巧小说校园_国产主播xx日韩_a级毛片在线免费

資訊專欄INFORMATION COLUMN

上云采購季！| 2核2G4M爆款云服務(wù)器低至59元/年，更有多臺、長期優(yōu)惠，快來選購！

21、 Python快速開發(fā)分布式搜索引擎Scrapy精講—爬蟲數(shù)據(jù)保存

相關(guān)文章

**20、 Python快速開發(fā)分布式搜索引擎Scrapy精講—編寫spiders爬蟲文件循環(huán)抓取內(nèi)容**

**18、 Python快速開發(fā)分布式搜索引擎Scrapy精講—Scrapy啟動文件的配置—xpath表**

**23、 Python快速開發(fā)分布式搜索引擎Scrapy精講—craw scrapy item lo**

24、Python快速開發(fā)分布式搜索引擎Scrapy精講—爬蟲和反爬的對抗過程以及策略—scrapy

**25、Python快速開發(fā)分布式搜索引擎Scrapy精講—Requests請求和Response響應(yīng)**

發(fā)表評論

0條評論

Alex

男|高級講師

TA的文章

如何繞過CDN獲取網(wǎng)站的真實IP？手把手教你！

hostarmada：2周年促銷，虛擬機2折，VPS云服務(wù)器75折，可選新加坡/美國/悉尼/孟買等9

怎么找到單位監(jiān)控主機登陸密碼-監(jiān)控主機密碼忘記了怎么辦？

寶塔面板安裝iFileSpace，一鍵搭建專屬的私人網(wǎng)盤系統(tǒng)

仿寫輪眼修改版

關(guān)于模塊化、組件化的理解

清除浮動的方法

造輪子 - EGGJS的MySQL操作庫

最新活動

資訊專欄INFORMATION COLUMN

上云采購季！| 2核2G4M爆款云服務(wù)器低至59元/年，更有多臺、長期優(yōu)惠，快來選購！

21、 Python快速開發(fā)分布式搜索引擎Scrapy精講—爬蟲數(shù)據(jù)保存

相關(guān)文章

發(fā)表評論

0條評論

男|高級講師

TA的文章

最新活動

上云采購季！| 2核2G4M爆款云服務(wù)器低至59元/年，更有多臺、長期優(yōu)惠，快來選購！

21、 Python快速開發(fā)分布式搜索引擎Scrapy精講—爬蟲數(shù)據(jù)保存