scrapy爬取豆瓣Top250電影

codergarden 發(fā)布于2019-07-30 14:24 / 655人閱讀

摘要：這次我們爬取的內(nèi)容準(zhǔn)備步驟找到格式網(wǎng)頁(yè)中需要爬取的數(shù)據(jù)的例如我們需要爬取圖片的這里用的是不會(huì)用的同學(xué)請(qǐng)百度然后我們開始建立工程打開然后在你想要建立工程的目錄下面輸入就會(huì)自動(dòng)建立一個(gè)工程然后去根目錄建立一個(gè)去這個(gè)目錄里建立一個(gè)注意這里的主爬蟲

這次我們爬取的內(nèi)容

準(zhǔn)備步驟

找到html格式網(wǎng)頁(yè)中需要爬取的數(shù)據(jù)的xpath
例如我們需要爬取圖片的url

這里用的是xPath Checker不會(huì)用的同學(xué)請(qǐng)百度

2.然后我們開始建立工程打開cmd 然后在你想要建立工程的目錄下面輸入 scrapy startproject douban
就會(huì)自動(dòng)建立一個(gè)工程然后去根目錄建立一個(gè)run.py 去spiders這個(gè)目錄里建立一個(gè)douban_spiders.py（注意這里的主爬蟲文件和項(xiàng)目名稱不能相同不然會(huì)報(bào)錯(cuò)）

源碼

# run.py
from scrapy import cmdline
cmdline.execute("scrapy crawl douban".split())

# douban_spiders.py
#coding:utf-8  
import scrapy  
from douban.items import DoubanItem  
   
from scrapy.crawler import CrawlerProcess  
   
class doubanSpider(scrapy.Spider):  
    name = "douban"  
    allowed_domains = ["douban.com"]  
    start_urls = ["https://movie.douban.com/top250"]  
       
    def parse(self, response):  
        item = DoubanItem()  
        item["image_urls"] = response.xpath("http://div[@class="pic"]//img//@src").extract()#提取圖片鏈接  
        # print "image_urls",item["image_urls"]  
        item["title"] = response.xpath("http://div[@class="hd"]/a/span[1]/text()").extract()#提取電影標(biāo)題 
        # print "title",item["title"]  
        item["quote"] = response.xpath("http://p[@class="quote"]/span/text()").extract()#提取簡(jiǎn)介
        # print "quote",item["quote"]  
        item["level"] = response.xpath("http://em/text()").extract()#提取排名
        # print "level",item["level"]  
        yield item    
        new_url= "https://movie.douban.com/top250" + response.xpath("http://span[@class="next"]/link/@href").extract_first()#翻頁(yè)  
        # print "new_url",new_url  
        if new_url:  
            yield scrapy.Request(new_url,callback=self.parse)

# items.py
import scrapy

class DoubanItem(scrapy.Item):
    # define the fields for your item here like:
    # name = scrapy.Field()
    image_urls = scrapy.Field()
    title = scrapy.Field()
    quote = scrapy.Field()
    level = scrapy.Field()

# pipelines.py
import os  
import urllib 

from douban import settings  

class DoubanPipeline(object):
    def process_item(self, item, spider):  
        i = 0
        dir_path = "%s/%s"%(settings.IMAGES_STORE,spider.name)#存儲(chǔ)路徑  
        print "dir_path",dir_path  
        if not os.path.exists(dir_path):  
            os.makedirs(dir_path)  
        for image_url in item["image_urls"]:  
            file_name = "Top" + item["level"][i] + " " +item["title"][i] + "("+item["quote"][i]+ ").jpg"#圖片名稱  
            i = i + 1
            # print "filename",file_name  
            file_path = "%s/%s"%(dir_path,file_name)  
            # print "file_path",file_path  
            if os.path.exists(file_name):  
                continue  
            with open(file_path,"wb") as file_writer:  
                conn = urllib.urlopen(image_url)#下載圖片  
                file_writer.write(conn.read())  
            file_writer.close()  
        return item

# setting.py
BOT_NAME = "douban"

SPIDER_MODULES = ["douban.spiders"]
NEWSPIDER_MODULE = "douban.spiders"

ITEM_PIPELINES = {  
   "douban.pipelines.DoubanPipeline": 1,  
}  
IMAGES_STORE="E:"  
DOWNLOAD_DELAY = 0.25

USER_AGENT = "Mozilla/5.0 (Macintosh; Intel Mac OS X 10_8_3) AppleWebKit/536.5 (KHTML, like Gecko) Chrome/19.0.1084.54 Safari/536.5"

最終爬取的結(jié)果

GPU云服務(wù)器云服務(wù)器豆瓣top250的數(shù)據(jù)分析 top250 豆瓣電影 python豆瓣電影

文章版權(quán)歸作者所有，未經(jīng)允許請(qǐng)勿轉(zhuǎn)載,若此文章存在違規(guī)行為，您可以聯(lián)系管理員刪除。

轉(zhuǎn)載請(qǐng)注明本文地址：http://systransis.cn/yun/40688.html

發(fā)表評(píng)論

登陸后可評(píng)論

0條評(píng)論

codergarden

男|高級(jí)講師

我要關(guān)注我要私信

TA的文章

js new 對(duì)象干了啥

閱讀 1339·2019-08-30 15:44
'align-items: center/flex-end ' breaks

閱讀 1391·2019-08-29 18:42
REM如何無(wú)視手機(jī)系統(tǒng)字號(hào)調(diào)整

閱讀 446·2019-08-29 13:59
詳解css3系列：動(dòng)畫@keyframes和Animation

閱讀 782·2019-08-28 17:58
精讀《深入淺出Node.js》

閱讀 2822·2019-08-26 12:02
經(jīng)常被面試官問(wèn)到的JavaScript數(shù)據(jù)類型知識(shí)你真的懂嗎？

閱讀 2424·2019-08-23 18:40
JavaScript展開操作符(Spread operator)介紹

閱讀 2413·2019-08-23 18:13
大話javascript 4期：事件循環(huán)（1）

閱讀 3115·2019-08-23 16:27

成人国产在线小视频_日韩寡妇人妻调教在线播放_色成人www永久在线观看_2018国产精品久久_亚洲欧美高清在线30p_亚洲少妇综合一区_黄色在线播放国产_亚洲另类技巧小说校园_国产主播xx日韩_a级毛片在线免费

資訊專欄INFORMATION COLUMN

上云采購(gòu)季！| 2核2G4M爆款云服務(wù)器低至59元/年，更有多臺(tái)、長(zhǎng)期優(yōu)惠，快來(lái)選購(gòu)！

scrapy爬取豆瓣Top250電影

相關(guān)文章

scrapy入門教程——爬取豆瓣電影Top250！

scrapy入門：豆瓣電影top250爬取

Python爬蟲 - scrapy - 爬取豆瓣電影TOP250

**Java爬蟲之下載IMDB中Top250電影的圖片**

**Python爬蟲之多線程下載豆瓣Top250電影圖片**

發(fā)表評(píng)論

0條評(píng)論

codergarden

男|高級(jí)講師

TA的文章

js new 對(duì)象干了啥

'align-items: center/flex-end ' breaks

REM如何無(wú)視手機(jī)系統(tǒng)字號(hào)調(diào)整

詳解css3系列：動(dòng)畫@keyframes和Animation

精讀《深入淺出Node.js》

經(jīng)常被面試官問(wèn)到的JavaScript數(shù)據(jù)類型知識(shí)你真的懂嗎？

JavaScript展開操作符(Spread operator)介紹

大話javascript 4期：事件循環(huán)（1）

最新活動(dòng)

資訊專欄INFORMATION COLUMN

上云采購(gòu)季！| 2核2G4M爆款云服務(wù)器低至59元/年，更有多臺(tái)、長(zhǎng)期優(yōu)惠，快來(lái)選購(gòu)！

scrapy爬取豆瓣Top250電影

相關(guān)文章

發(fā)表評(píng)論

0條評(píng)論

男|高級(jí)講師

TA的文章

最新活動(dòng)

上云采購(gòu)季！| 2核2G4M爆款云服務(wù)器低至59元/年，更有多臺(tái)、長(zhǎng)期優(yōu)惠，快來(lái)選購(gòu)！