scrapy簡單學習6—爬取百度貼吧圖片（仿寫向）

trigkit4 發(fā)布于2019-07-24 18:10 / 3080人閱讀

摘要：主要是對上一篇文章的簡單仿寫，大家以后想批量下載什么圖片照格式仿寫就好。

主要是對上一篇文章的簡單仿寫，大家以后想批量下載什么圖片照格式仿寫就好。由于本人是tfboys的粉絲，所以平常沒事愛逛貼吧欣賞我家三小只的美圖，所以這次就以貼吧[小王的討論樓]為例，批量爬取該樓的圖片[1]

itme.py編寫

import scrapy


class WangyuantuItem(scrapy.Item):
    image_urls=scrapy.Field()#就編寫個圖片路徑就好

spider的編寫

import scrapy
import requests
import os
from wangyuantu.items import WangyuantuItem

class XiaowangSpider(scrapy.Spider):
    name = "xiaowang"
    allowed_domains = ["tieba.baidu.com/p/3888309273"]
    start_urls = [
        "http://tieba.baidu.com/p/3888309273?pn=%d" % i for i in range(21,45)
        ]
    
    

    def parse(self, response):
        item = WangyuantuItem()
        item["image_urls"]=response.xpath("http://img[@class="BDE_Image"]/@src").extract()
        
        yield item

pipelines編寫：這個部分都是可以套用的

import requests
from wangyuantu import settings
import os

#圖片下載類
class ImageDownloadPipeline(object):
    def process_item(self, item, spider):
        if "image_urls" in item:#如何‘圖片地址’在項目中
            images = []#定義圖片空集
            
            dir_path = "%s/%s" % (settings.IMAGES_STORE, spider.name)

            if not os.path.exists(dir_path):
                os.makedirs(dir_path)
            for image_url in item["image_urls"]:
                us = image_url.split("/")[3:]
                image_file_name = "_".join(us)
                file_path = "%s/%s" % (dir_path, image_file_name)
                images.append(file_path)
                if os.path.exists(file_path):
                    continue

                with open(file_path, "wb") as handle:
                    response = requests.get(image_url, stream=True)
                    for block in response.iter_content(1024):
                        if not block:
                            break

settings編寫

BOT_NAME = "wangyuantu"

SPIDER_MODULES = ["wangyuantu.spiders"]
NEWSPIDER_MODULE = "wangyuantu.spiders"

ITEM_PIPELINES = {"wangyuantu.pipelines.ImageDownloadPipeline": 1}
#圖片儲存
IMAGES_STORE = "C:UsersLenovoPictures"

結果

寄語：wili源源小可愛，希望你快快樂樂的長大

文章版權歸作者所有，未經允許請勿轉載,若此文章存在違規(guī)行為，您可以聯(lián)系管理員刪除。

轉載請注明本文地址：http://systransis.cn/yun/37632.html

scrapy簡單學習3—簡單爬取中文網站（仿寫向）

摘要：仿寫原創(chuàng)單頁面爬取爬取網站聯(lián)合早報網左側的標題，連接，內容定義爬取內容文件編寫保存文件命令備注打開出現(xiàn)亂碼，用記事本轉換成編碼，打開中文可正常。仿寫原創(chuàng)——單頁面爬取爬取網站：聯(lián)合早報網左側的標題，連接，內容1.item.py定義爬取內容 import scrapy class MaiziItem(scrapy.Item): title = scrapy.Field() ...

王陸寬 2019-07-31 10:49 評論0 收藏0
首次公開，整理12年積累的博客收藏夾，零距離展示《收藏夾吃灰》系列博客

摘要：時間永遠都過得那么快，一晃從年注冊，到現(xiàn)在已經過去了年那些被我藏在收藏夾吃灰的文章，已經太多了，是時候把他們整理一下了。那是因為收藏夾太亂，橡皮擦給設置私密了，不收拾不好看呀。 ...

Harriet666 2021-09-10 10:51 評論0 收藏0
零基礎如何學爬蟲技術

摘要：楚江數(shù)據(jù)是專業(yè)的互聯(lián)網數(shù)據(jù)技術服務，現(xiàn)整理出零基礎如何學爬蟲技術以供學習，。本文來源知乎作者路人甲鏈接楚江數(shù)據(jù)提供網站數(shù)據(jù)采集和爬蟲軟件定制開發(fā)服務，服務范圍涵蓋社交網絡電子商務分類信息學術研究等。楚江數(shù)據(jù)是專業(yè)的互聯(lián)網數(shù)據(jù)技術服務，現(xiàn)整理出零基礎如何學爬蟲技術以供學習，http://www.chujiangdata.com。第一：Python爬蟲學習系列教程（來源于某博主：htt...

KunMinX 2019-07-25 11:29 評論0 收藏0
【python爬蟲學習】python3.7 scrapy 安裝，demo實例，實踐：爬取百度

摘要：安裝可能的問題問題解決實例教程中文教程文檔第一步創(chuàng)建項目目錄第二步進入創(chuàng)建爬蟲第三步創(chuàng)建存儲容器，復制項目下的重命名為第四步修改提取數(shù)據(jù)引入數(shù)據(jù)容器第五步解決百度首頁網站抓取空白問題設置設置用戶代理解決相關解決數(shù)據(jù)保存亂 pip 安裝 pip install scrapy 可能的問題：問題/解決：error: Microsoft Visual C++ 14.0 is requi...

asoren 2019-07-30 18:36 評論0 收藏0

發(fā)表評論

登陸后可評論

0條評論

trigkit4

男|高級講師

我要關注我要私信

TA的文章

CDN加速究竟是怎么加速的？其工作原理是怎樣的？

閱讀 1046·2021-11-22 13:52
【C語言】C語言字符串 | 關于String | 通過國外教材講解字符串 | 專欄遺漏知識點補充

閱讀 1470·2021-11-19 09:40
恒流源設計參考方案

閱讀 3258·2021-11-16 11:44
將python項目打包成exe和安裝包

閱讀 1304·2021-11-15 11:39
數(shù)電實驗：密碼保險箱

閱讀 3995·2021-10-08 10:04
c類網絡多少可用主機-一個c類網絡中,有多少個可用的主機地址？

閱讀 5433·2021-09-22 14:57
Java項目:理財管理系統(tǒng)設計和實現(xiàn)(java+springboot+ssm)

閱讀 3135·2021-09-10 10:50
DeinServerHost：[email protected] EPYC 7443P/4GB內存/

閱讀 3219·2021-08-17 10:13

成人国产在线小视频_日韩寡妇人妻调教在线播放_色成人www永久在线观看_2018国产精品久久_亚洲欧美高清在线30p_亚洲少妇综合一区_黄色在线播放国产_亚洲另类技巧小说校园_国产主播xx日韩_a级毛片在线免费

資訊專欄INFORMATION COLUMN

上云采購季！| 2核2G4M爆款云服務器低至59元/年，更有多臺、長期優(yōu)惠，快來選購！

scrapy簡單學習6—爬取百度貼吧圖片（仿寫向）

相關文章

scrapy簡單學習3—簡單爬取中文網站（仿寫向）

首次公開，整理12年積累的博客收藏夾，零距離展示《收藏夾吃灰》系列博客

零基礎如何學爬蟲技術

**【python爬蟲學習】python3.7 scrapy 安裝，demo實例，實踐：爬取百度**

發(fā)表評論

0條評論

trigkit4

男|高級講師

TA的文章

CDN加速究竟是怎么加速的？其工作原理是怎樣的？

【C語言】C語言字符串 | 關于String | 通過國外教材講解字符串 | 專欄遺漏知識點補充

恒流源設計參考方案

將python項目打包成exe和安裝包

數(shù)電實驗：密碼保險箱

c類網絡多少可用主機-一個c類網絡中,有多少個可用的主機地址？

Java項目:理財管理系統(tǒng)設計和實現(xiàn)(java+springboot+ssm)

DeinServerHost：[email protected] EPYC 7443P/4GB內存/

最新活動

資訊專欄INFORMATION COLUMN

上云采購季！| 2核2G4M爆款云服務器低至59元/年，更有多臺、長期優(yōu)惠，快來選購！

scrapy簡單學習6—爬取百度貼吧圖片（仿寫向）

相關文章

發(fā)表評論

0條評論

男|高級講師

TA的文章

最新活動

上云采購季！| 2核2G4M爆款云服務器低至59元/年，更有多臺、長期優(yōu)惠，快來選購！