小白爬蟲scrapy第五篇

I_Am 發(fā)布于2019-07-30 15:23 / 976人閱讀

摘要：接下來將數(shù)據(jù)保存到數(shù)據(jù)庫中在項目路徑下創(chuàng)建一個目錄名字叫做以便區(qū)分創(chuàng)建將其他目錄的文件拷貝一份放入該目錄然后可以正式開始吧爬取的數(shù)據(jù)如何存放在數(shù)據(jù)庫中了客觀代碼來了打開文件在最下面添加數(shù)據(jù)庫地址數(shù)據(jù)庫用戶名數(shù)據(jù)庫密碼數(shù)據(jù)庫端口數(shù)據(jù)庫中庫由于

接下來將數(shù)據(jù)保存到數(shù)據(jù)庫中
在項目路徑下創(chuàng)建一個目錄名字叫做:mysqlpipelines以便區(qū)分
創(chuàng)建將其他目錄的__init__.py文件拷貝一份放入該目錄
然后可以正式開始吧爬取的數(shù)據(jù)如何存放在數(shù)據(jù)庫中了,客觀代碼來了

打開settings.py文件在最下面添加
# configure MySQL
MYSQL_HOSTS = "127.0.0.1"#數(shù)據(jù)庫地址
MYSQL_USER = "root"#數(shù)據(jù)庫用戶名
MYSQL_PASSWORD = "root"#數(shù)據(jù)庫密碼
MYSQL_PORT = "3306"#數(shù)據(jù)庫端口
MYSQL_DB = "test"#數(shù)據(jù)庫中test庫

由于我的數(shù)據(jù)庫是本地的那就所以直接醬紫
之后呢,在mysqlpipelines目錄中新建一個sql.py
代碼如下

import mysql.connector
from dingdian import settings
# 引用配置文件
MYSQL_HOSTS = settings.MYSQL_HOSTS
MYSQL_USER = settings.MYSQL_USER
MYSQL_PASSWORD = settings.MYSQL_PASSWORD
MYSQL_PORT = settings.MYSQL_PORT
MYSQL_DB = settings.MYSQL_DB
# 初始化MYSQL游標操作
cnx = mysql.connector.connect(user=MYSQL_USER, password=MYSQL_PASSWORD, host=MYSQL_HOSTS, database=MYSQL_DB)
cur = cnx.cursor(buffered=True)

# 定義一個sql類
class Sql:
    # @classmethod 做類修飾,相當(dāng)于靜態(tài)類
    # 定義函數(shù),將函數(shù)中的變量保存到數(shù)據(jù)庫中
    @classmethod
    def insert_dd_name(cls, video_name, video_time, video_imgurl, video_url):
        sql = "INSERT INTO video_info(video_name, video_time, video_imgurl, video_url)
            VALUES(%(video_name)s, %(video_time)s, %(video_imgurl)s, %(video_url)s)"
        value = {"video_name" : video_name,
                 "video_time": video_time ,
                 "video_imgurl": video_imgurl ,
                 "video_url": video_url }
        print(sql, value)
        cur.execute(sql, value)
        cnx.commit()
        pass
        
    # 查找是否有重復(fù)的小說編號有則返回1 沒有則返回0
    @classmethod
    def select_name(cls, video_name):
        sql = "SELECT EXISTS(SELECT 1 FROM video_info WHERE video_name= %(video_name)s)"
        value = {
            "video_name": video_name
        }
        cur.execute(sql, value)
        return cur.fetchall()[0]

上面代碼中import mysql.connector可能會報錯,如果報錯的話就去百度python如何下載數(shù)據(jù)庫連接包吧
然后繼續(xù)在mysqlpipelines創(chuàng)建一個pipelines.py
代碼如下:

from .sql import Sql
from AiQuer.items import AiquerItem

class DingdianPipeline(object):

    def process_item(self, item, spider):
        if isinstance(item, AiquerItem):
            video_name= item["video_name"]
            ret = Sql.select_name(video_name)
            if ret[0] == 1:
                print(u"已存在")
            else:
                video_name= item["video_name"]
                video_time= item["video_time"]
                video_imgurl= item["video_imgurl"]
                video_url= item["video_url"]
                
                Sql.insert_dd_name(video_name, video_time, video_imgurl, video_url)
                print(u"開始存視頻信息")
        return item

最后在settings.py里面去注冊一下DingdianPipeline
找到下面這一段

# Configure item pipelines
# See http://scrapy.readthedocs.org/en/latest/topics/item-pipeline.html
ITEM_PIPELINES = {
    "AiQuer.mysqlpipelines.pipelines.AiquerPipeline": 300,
}

注:我在這里面沒有建立數(shù)據(jù)庫表請同學(xué)們自己去創(chuàng)建表吧
啟用后你會發(fā)現(xiàn)數(shù)據(jù)庫有你選擇用戶的所有視頻,哈哈哈~
python的就到這兒了.如果要詳細了解進階的話就看python的scrapy文檔吧!
附上鏈接Scrapy入門教程.拜拜~

云服務(wù)器 GPU云服務(wù)器第五篇 scrapy 爬蟲爬蟲scrapy scrapy爬蟲

文章版權(quán)歸作者所有，未經(jīng)允許請勿轉(zhuǎn)載,若此文章存在違規(guī)行為，您可以聯(lián)系管理員刪除。

轉(zhuǎn)載請注明本文地址：http://systransis.cn/yun/41215.html

發(fā)表評論

登陸后可評論

0條評論

I_Am

男|高級講師

我要關(guān)注我要私信

TA的文章

[ C語言 ] 掃雷 ------＞用C語言實現(xiàn)game2

閱讀 3653·2021-11-15 11:38
leetcode300-每日刷題檔

閱讀 2827·2021-11-11 16:55
oneinstack+lnmp：nginx編譯Nginx fastcgi_cache模塊

閱讀 2588·2021-11-08 13:22
racknerd便宜VPS收集整理

閱讀 2660·2021-11-02 14:45
一名合格的軟件測試工程師該有的3種思維方式

閱讀 1354·2021-09-28 09:35
爆肝一周，用Python在物聯(lián)網(wǎng)設(shè)備上寫了個智能語音助手

閱讀 2677·2021-09-10 10:50
前端面試每日3+1——第104天

閱讀 509·2019-08-30 15:44
實習(xí)項目開發(fā)總結(jié)

閱讀 2810·2019-08-29 17:06

成人国产在线小视频_日韩寡妇人妻调教在线播放_色成人www永久在线观看_2018国产精品久久_亚洲欧美高清在线30p_亚洲少妇综合一区_黄色在线播放国产_亚洲另类技巧小说校园_国产主播xx日韩_a级毛片在线免费

資訊專欄INFORMATION COLUMN

上云采購季！| 2核2G4M爆款云服務(wù)器低至59元/年，更有多臺、長期優(yōu)惠，快來選購！

小白爬蟲scrapy第五篇

相關(guān)文章

**小白爬蟲scrapy第一篇**

**小白爬蟲scrapy第四篇**

**小白爬蟲scrapy第二篇**

**小白爬蟲scrapy第三篇**

發(fā)表評論

0條評論

I_Am

男|高級講師

TA的文章

[ C語言 ] 掃雷 ------＞用C語言實現(xiàn)game2

leetcode300-每日刷題檔

oneinstack+lnmp：nginx編譯Nginx fastcgi_cache模塊

racknerd便宜VPS收集整理

一名合格的軟件測試工程師該有的3種思維方式

爆肝一周，用Python在物聯(lián)網(wǎng)設(shè)備上寫了個智能語音助手

前端面試每日3+1——第104天

實習(xí)項目開發(fā)總結(jié)

最新活動

資訊專欄INFORMATION COLUMN

上云采購季！| 2核2G4M爆款云服務(wù)器低至59元/年，更有多臺、長期優(yōu)惠，快來選購！

小白爬蟲scrapy第五篇

相關(guān)文章

發(fā)表評論

0條評論

男|高級講師

TA的文章

最新活動

上云采購季！| 2核2G4M爆款云服務(wù)器低至59元/年，更有多臺、長期優(yōu)惠，快來選購！