scrapy入門(mén)：豆瓣電影top250爬取

xialong 發(fā)布于2019-07-31 11:16 / 1114人閱讀

摘要：本文內(nèi)容爬取豆瓣電影頁(yè)面內(nèi)容，字段包含排名，片名，導(dǎo)演，一句話描述有的為空，評(píng)分，評(píng)價(jià)人數(shù)，上映時(shí)間，上映國(guó)家，類(lèi)別抓取數(shù)據(jù)存儲(chǔ)介紹爬蟲(chóng)框架教程一入門(mén)創(chuàng)建項(xiàng)目創(chuàng)建爬蟲(chóng)注意，爬蟲(chóng)名不能和項(xiàng)目名一樣應(yīng)對(duì)反爬策略的配置打開(kāi)文件，將修改為。

本文內(nèi)容

爬取豆瓣電影Top250頁(yè)面內(nèi)容，字段包含：
排名，片名，導(dǎo)演，一句話描述有的為空，評(píng)分，評(píng)價(jià)人數(shù)，上映時(shí)間，上映國(guó)家，類(lèi)別

抓取數(shù)據(jù)存儲(chǔ)

scrapy介紹

Scrapy爬蟲(chóng)框架教程（一）-- Scrapy入門(mén)

創(chuàng)建項(xiàng)目

scrapy startproject dbmovie

創(chuàng)建爬蟲(chóng)

cd dbmoive
scarpy genspider dbmovie_spider movie.douban.com/top250

注意，爬蟲(chóng)名不能和項(xiàng)目名一樣

應(yīng)對(duì)反爬策略的配置

打開(kāi)settings.py文件，將ROBOTSTXT_OBEY修改為False。

ROBOTSTXT_OBEY = False

修改User-Agent

DEFAULT_REQUEST_HEADERS = {
    "Accept": "text/html,application/xhtml+xml,application/xml;q=0.9,*/*;q=0.8",
    "Accept-Language": "en",
    "Accept-Encoding" :  "gzip, deflate, br",
    "Cache-Control" :  "max-age=0",
    "Connection" :  "keep-alive",
    "Host" :  "movie.douban.com",
    "Upgrade-Insecure-Requests" :  "1",
    "User-Agent" :  "Mozilla/5.0 (Macintosh; Intel Mac OS X 10_13_1) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/63.0.3239.132 Safari/537.36",
}

運(yùn)行爬蟲(chóng)

scrapy crawl dbmovie_spider

定義item

根據(jù)前面的分析，我們需要抓取一共十個(gè)字段的信息，現(xiàn)在在items.py文件中定義item

import scrapy

class DoubanItem(scrapy.Item):
    # 排名
    ranking = scrapy.Field()
    # 篇名 
    title = scrapy.Field()
    # 導(dǎo)演
    director = scrapy.Field()
    # 一句話描述 有的為空
    movie_desc = scrapy.Field()
    # 評(píng)分
    rating_num = scrapy.Field()
    # 評(píng)價(jià)人數(shù)
    people_count = scrapy.Field()
    # 上映時(shí)間
    online_date = scrapy.Field()
    # 上映國(guó)家
    country = scrapy.Field()
    # 類(lèi)別
    category = scrapy.Field()

字段提取

這里需要用到xpath相關(guān)知識(shí)，偷了個(gè)懶，直接用chrome插件獲取
Chrome瀏覽器獲取XPATH的方法----通過(guò)開(kāi)發(fā)者工具獲取

def parse(self, response):
    item = DoubanItem()
    movies = response.xpath("http://div[@class="item"]")
    for movie in movies:
        # 名次
        item["ranking"] = movie.xpath("div[@class="pic"]/em/text()").extract()[0]
        # 片名 提取多個(gè)片名
        titles = movie.xpath("div[@class="info"]/div[1]/a/span/text()").extract()[0]
        item["title"] = titles
        # 獲取導(dǎo)演信息
        info_director = movie.xpath("div[2]/div[2]/p[1]/text()[1]").extract()[0].replace("
", "").replace(" ", "").split("xa0")[0]
        item["director"] = info_director
        # 上映日期
        online_date = movie.xpath("div[2]/div[2]/p[1]/text()[2]").extract()[0].replace("
", "").replace("xa0", "").split("/")[0].replace(" ", "")
        # 制片國(guó)家
        country = movie.xpath("div[2]/div[2]/p[1]/text()[2]").extract()[0].replace("
", "").split("/")[1].replace("xa0", "")
        # 影片類(lèi)型
        category = movie.xpath("div[2]/div[2]/p[1]/text()[2]").extract()[0].replace("
", "").split("/")[2].replace("xa0", "").replace(" ", "")
        item["online_date"] = online_date
        item["country"] = country
        item["category"] = category
        movie_desc = movie.xpath("div[@class="info"]/div[@class="bd"]/p[@class="quote"]/span/text()").extract()
        if len(movie_desc) != 0:  # 判斷info的值是否為空，不進(jìn)行這一步有的電影信息并沒(méi)有會(huì)報(bào)錯(cuò)或數(shù)據(jù)不全
            item["movie_desc"] = movie_desc
        else:
            item["movie_desc"] = " "

        item["rating_num"] = movie.xpath("div[@class="info"]/div[@class="bd"]/div[@class="star"]/span[@class="rating_num"]/text()").extract()[0]
        item["people_count"] = movie.xpath("div[@class="info"]/div[@class="bd"]/div[@class="star"]/span[4]/text()").extract()[0]
        yield item
    # 獲取下一頁(yè)
    next_url = response.xpath("http://span[@class="next"]/a/@href").extract()
    
    if next_url:
        next_url = "https://movie.douban.com/top250" + next_url[0]
        yield scrapy.Request(next_url, callback=self.parse, dont_filter=True)

存儲(chǔ)數(shù)據(jù)，mysql

注意1064錯(cuò)誤，表中字段包含mysql關(guān)鍵字導(dǎo)致
Scrapy入門(mén)教程之寫(xiě)入數(shù)據(jù)庫(kù)

import pymysql

def dbHandle():
    conn = pymysql.connect(
        host="localhost",
        user="root",
        passwd="pwd",
        db="dbmovie",
        charset="utf8",
        use_unicode=False
    )
    return conn

class DoubanPipeline(object):
    def process_item(self, item, spider):
        dbObject = dbHandle()
        cursor = dbObject.cursor()
        sql = "insert into db_info(ranking,title,director,movie_desc,rating_num,people_count,online_date,country,category) values(%s,%s,%s,%s,%s,%s,%s,%s,%s)"

        try:
            cursor.execute(sql, (item["ranking"], item["title"], item["director"], item["movie_desc"], item["rating_num"], item["people_count"], item["online_date"], item["country"], item["category"]))
            dbObject.commit()
        except Exception as e:
            print(e)
            dbObject.rollback()

        return item

簡(jiǎn)單應(yīng)對(duì)爬蟲(chóng)策略

Scrapy爬蟲(chóng)——突破反爬蟲(chóng)最全策略解析

云服務(wù)器 GPU云服務(wù)器豆瓣top250的數(shù)據(jù)分析 top250 豆瓣電影 python豆瓣電影

文章版權(quán)歸作者所有，未經(jīng)允許請(qǐng)勿轉(zhuǎn)載,若此文章存在違規(guī)行為，您可以聯(lián)系管理員刪除。

轉(zhuǎn)載請(qǐng)注明本文地址：http://systransis.cn/yun/44910.html

發(fā)表評(píng)論

登陸后可評(píng)論

0條評(píng)論

xialong

男|高級(jí)講師

我要關(guān)注我要私信

TA的文章

【物聯(lián)網(wǎng)】30.物聯(lián)網(wǎng)數(shù)據(jù)分析的基礎(chǔ) - 機(jī)器學(xué)習(xí)

閱讀 3484·2021-11-19 09:40
勒索軟件攻擊工程巨頭偉爾集團(tuán) 預(yù)測(cè)利潤(rùn)下降2500英鎊

閱讀 1502·2021-10-13 09:41
Microsoft WPBT漏洞可讓黑客在Windows設(shè)備上安裝rootkit

閱讀 2677·2021-09-29 09:35
從銷(xiāo)售自學(xué)轉(zhuǎn)行軟件測(cè)試！我的自學(xué)經(jīng)歷值得每個(gè)想轉(zhuǎn)行的人借鑒?。?！

閱讀 2723·2021-09-23 11:21
香港cn2服務(wù)器怎么樣?香港cn2直連vps價(jià)格多少錢(qián)

閱讀 1716·2021-09-09 11:56
解決各種情況下的iframe高度自適應(yīng)內(nèi)容

閱讀 844·2019-08-30 15:53
CSS兼容攻略

閱讀 853·2019-08-30 15:52
前端碎語(yǔ)（5）

閱讀 606·2019-08-30 12:47

成人国产在线小视频_日韩寡妇人妻调教在线播放_色成人www永久在线观看_2018国产精品久久_亚洲欧美高清在线30p_亚洲少妇综合一区_黄色在线播放国产_亚洲另类技巧小说校园_国产主播xx日韩_a级毛片在线免费

資訊專(zhuān)欄INFORMATION COLUMN

上云采購(gòu)季！| 2核2G4M爆款云服務(wù)器低至59元/年，更有多臺(tái)、長(zhǎng)期優(yōu)惠，快來(lái)選購(gòu)！

scrapy入門(mén)：豆瓣電影top250爬取

相關(guān)文章

scrapy入門(mén)教程——爬取豆瓣電影Top250！

scrapy爬取豆瓣Top250電影

Python爬蟲(chóng) - scrapy - 爬取豆瓣電影TOP250

**Java爬蟲(chóng)之下載IMDB中Top250電影的圖片**

零基礎(chǔ)如何學(xué)爬蟲(chóng)技術(shù)

發(fā)表評(píng)論

0條評(píng)論

xialong

男|高級(jí)講師

TA的文章

【物聯(lián)網(wǎng)】30.物聯(lián)網(wǎng)數(shù)據(jù)分析的基礎(chǔ) - 機(jī)器學(xué)習(xí)

勒索軟件攻擊工程巨頭偉爾集團(tuán) 預(yù)測(cè)利潤(rùn)下降2500英鎊

Microsoft WPBT漏洞可讓黑客在Windows設(shè)備上安裝rootkit

從銷(xiāo)售自學(xué)轉(zhuǎn)行軟件測(cè)試！我的自學(xué)經(jīng)歷值得每個(gè)想轉(zhuǎn)行的人借鑒?。?！

香港cn2服務(wù)器怎么樣?香港cn2直連vps價(jià)格多少錢(qián)

解決各種情況下的iframe高度自適應(yīng)內(nèi)容

CSS兼容攻略

前端碎語(yǔ)（5）

最新活動(dòng)

資訊專(zhuān)欄INFORMATION COLUMN

上云采購(gòu)季！| 2核2G4M爆款云服務(wù)器低至59元/年，更有多臺(tái)、長(zhǎng)期優(yōu)惠，快來(lái)選購(gòu)！

scrapy入門(mén)：豆瓣電影top250爬取

相關(guān)文章

發(fā)表評(píng)論

0條評(píng)論

男|高級(jí)講師

TA的文章

最新活動(dòng)

上云采購(gòu)季！| 2核2G4M爆款云服務(wù)器低至59元/年，更有多臺(tái)、長(zhǎng)期優(yōu)惠，快來(lái)選購(gòu)！