Python爬蟲之足球小將動(dòng)漫（圖片）下載

tolerious 發(fā)布于2019-07-30 17:12 / 1781人閱讀

摘要：本屆世界杯中，在日本與比利時(shí)的比賽中，日本球迷們高舉隊(duì)長(zhǎng)小翼的畫面就足以證明這部動(dòng)漫對(duì)日本足球的深遠(yuǎn)影響。本文將介紹如何利用爬蟲來下載足球小將的動(dòng)漫圖片。

??盡管俄羅斯世界杯的熱度已經(jīng)褪去，但這屆世界杯還是給全世界人民留下了無數(shù)難忘的回憶，不知你的回憶里有沒有日本隊(duì)的身影？本次世界杯中，日本隊(duì)的表現(xiàn)讓人眼前一亮，很難想象，就是這樣一只隊(duì)伍，二十幾年還是我們國(guó)家足球隊(duì)的水平一樣，也許還不如我們國(guó)足呢。
??足球小將（隊(duì)長(zhǎng)小翼、キャプテン翼）由日本著名動(dòng)漫家高橋陽一于1981年開始連載，從此這部動(dòng)漫就伴隨著一代又一代的日本，甚至全世界的少年兒童成長(zhǎng)，也在無形有形中促進(jìn)了日本足球的進(jìn)步。本屆世界杯中，在日本與比利時(shí)的比賽中，日本球迷們高舉隊(duì)長(zhǎng)小翼的畫面就足以證明這部動(dòng)漫對(duì)日本足球的深遠(yuǎn)影響。
??本文將介紹如何利用Python爬蟲來下載足球小將的動(dòng)漫圖片。
??首先，我們需要下載的網(wǎng)址為：https://mhpic.samanlehua.com/...，截圖如下：

我們注意到，在這個(gè)網(wǎng)址中，只有卷數(shù)和動(dòng)漫圖片的序號(hào)在發(fā)生改變，因此，我們只需要找到總共的卷數(shù)以及每一卷中所包含的圖片即可完成此爬蟲。
??不過稍微需要注意的是，爬蟲下載下來的圖片格式為webp格式。WebP（發(fā)音 weppy，項(xiàng)目主頁），是一種支持有損壓縮和無損壓縮的圖片文件格式，派生自圖像編碼格式 VP8。根據(jù) Google 的測(cè)試，無損壓縮后的 WebP 比 PNG 文件少了 45％的文件大小，即使這些 PNG 文件經(jīng)過其他壓縮工具壓縮之后，WebP 還是可以減少 28％的文件大小。
??我們希望能夠?qū)ebp格式的圖片轉(zhuǎn)化為png格式。因此，我們需要在Linux系統(tǒng)中安裝webp軟件，安裝的方式如下：

Ubuntu: sudo apt-get install webp

CentOS: yum -y install libwebp-devel libwebp-tools

安裝完后，通過以下命令就可以講webp格式的圖片轉(zhuǎn)化為png格式了：

dwebp picture.webp -o picture.png

??整個(gè)爬蟲的思路就講完了，我們利用多線程進(jìn)行下載圖片以及圖片格式轉(zhuǎn)換的操作，完整的Python代碼如下（需要事先安裝webp，以及保存目錄需要設(shè)置好）：

# -*- coding: utf-8 -*-
import urllib.request
import os
import time
from concurrent.futures import ThreadPoolExecutor, wait, ALL_COMPLETED

global COUNT # 下載失敗的圖片張數(shù)
COUNT = 0

# 參數(shù)：
# dir: 圖片保存的目錄
# juanshu_num: 卷數(shù)
# page: 頁數(shù)
# 此函數(shù)的作用： 下載特定卷的特定頁的圖片到指定的保存目錄
def get_webp(dir, juanshu_num, page):
    # 拼接下載的圖片的網(wǎng)址
    base_url = "https://mhpic.samanlehua.com/comic/Z%2F"
    name = urllib.parse.quote("足球小將翼")
    juanshu = "0"+str(juanshu_num) if juanshu_num<10 else str(juanshu_num)
    juanshu = urllib.parse.quote("第%s卷"%juanshu)
    format = ".jpg-noresize.webp"
    url = base_url+name+"%2F"+juanshu+"%2F"+str(page)+format
    # print(url)
    try:
        urllib.request.urlretrieve(url, "%s/%d.webp"%(dir, page)) # 下載圖片
        print("開始轉(zhuǎn)化圖片格式：")
        os.system("dwebp %s/%d.webp -o %s/%d.png"%(dir, page, dir, page)) # 將圖片由webp格式轉(zhuǎn)化為png格式
        print("轉(zhuǎn)化圖片格式完畢。")
        os.system("rm -rf %s/%d.webp"%(dir, page)) # 刪除webp格式的圖片
    except Exception as err:
        print(err)

# 參數(shù)：juanshu_num: 卷數(shù)
#       page_num: 該卷的圖片張數(shù)
# 此函數(shù)的作用： 下載某一卷中的所有圖片
def download(juanshu_num, page_num):

    # 如果目錄不存在，則新建這個(gè)目錄
    if not os.path.exists("/home/tsubasa/卷%s"%juanshu_num):
        os.mkdir("/home/tsubasa/卷%s"%juanshu_num)
    dir = "/home/tsubasa/卷%s"%juanshu_num
    # 下載每一卷中的所有圖片
    for page in range(1, page_num+1):
        try:
            get_webp(dir, juanshu_num, page)
        except urllib.error.HTTPError:
            print("該圖片不存在或者網(wǎng)絡(luò)連接錯(cuò)誤。")
            COUNT += 1

def main():

    start_time = time.time()
    # 每一卷的圖片張數(shù), 一共21卷
    page_num_list = [175, 175, 165, 171, 169, 172, 170, 170, 168, 174, 171,
                        168, 168, 168, 176, 169, 171, 167, 166, 172, 172]
    # 設(shè)置線程個(gè)數(shù)為10個(gè)
    executor = ThreadPoolExecutor(max_workers=10)  # 可以自己調(diào)整max_workers
    # submit()的參數(shù)： 第一個(gè)為函數(shù)， 之后為該函數(shù)的傳入?yún)?shù)，允許有多個(gè)
    # 并發(fā)下載圖片
    future_tasks = [executor.submit(download, juanshu_num+1, page_num)
                        for juanshu_num,page_num in enumerate(page_num_list)]
    wait(future_tasks, return_when=ALL_COMPLETED) # 等待所有的任務(wù)結(jié)束
    end_time = time.time()
    print("圖片下載完畢!一共耗時(shí)%s秒。"%(end_time-start_time))
    print("下載失敗的圖片張數(shù)為：%d"%COUNT)

main()

運(yùn)行以上程序，靜靜地等待程序運(yùn)行完畢，輸出的結(jié)果如下：

??我們?cè)偃inux中查看已經(jīng)下好的圖片：

一共下載了3577張圖片（沒有一張下載失?。?，用了約1521秒，效率杠杠的，哈哈~~

??本文到此就要結(jié)束了，最后再加一句：中國(guó)足球，加油??！

注意：本人現(xiàn)已開通兩個(gè)微信公眾號(hào)：因?yàn)镻ython（微信號(hào)為：python_math）以及輕松學(xué)會(huì)Python爬蟲（微信號(hào)為：easy_web_scrape），歡迎大家關(guān)注哦~~

云服務(wù)器 GPU云服務(wù)器圖片爬蟲軟件下載動(dòng)漫節(jié)圖片 python爬蟲圖片 python爬蟲抓取圖片

文章版權(quán)歸作者所有，未經(jīng)允許請(qǐng)勿轉(zhuǎn)載,若此文章存在違規(guī)行為，您可以聯(lián)系管理員刪除。

轉(zhuǎn)載請(qǐng)注明本文地址：http://systransis.cn/yun/42082.html

發(fā)表評(píng)論

登陸后可評(píng)論

0條評(píng)論

tolerious

男|高級(jí)講師

我要關(guān)注我要私信

TA的文章

Veritas最新研究：人為失誤、尷尬心理和勒索軟件給云應(yīng)用帶來消極影響

閱讀 759·2021-11-24 10:19
VernalWeb：美國(guó)達(dá)拉斯全托管服務(wù)器，免費(fèi)cPanel/WHM面板，E-2186G/16 GB

閱讀 1148·2021-09-13 10:23
DogYun：新上韓國(guó)獨(dú)立服務(wù)器,E5/SSD+NVMe優(yōu)惠后300元/月,自動(dòng)化上架

閱讀 3464·2021-09-06 15:15
前端面試題-偽元素的應(yīng)用

閱讀 1802·2019-08-30 14:09
Vue “Cannot read property 'upgrade' of u

閱讀 1726·2019-08-30 11:15
國(guó)內(nèi)存在感最低的前端API——瀏覽器路由

閱讀 1874·2019-08-29 18:44
【靜態(tài)頁面架構(gòu)】CSS之顯示與溢出

閱讀 967·2019-08-29 16:34
原生js+css 實(shí)現(xiàn) material design 點(diǎn)擊效果

閱讀 2486·2019-08-29 12:46

成人国产在线小视频_日韩寡妇人妻调教在线播放_色成人www永久在线观看_2018国产精品久久_亚洲欧美高清在线30p_亚洲少妇综合一区_黄色在线播放国产_亚洲另类技巧小说校园_国产主播xx日韩_a级毛片在线免费

資訊專欄INFORMATION COLUMN

上云采購季！| 2核2G4M爆款云服務(wù)器低至59元/年，更有多臺(tái)、長(zhǎng)期優(yōu)惠，快來選購！

Python爬蟲之足球小將動(dòng)漫（圖片）下載

相關(guān)文章

首次公開，整理12年積累的博客收藏夾，零距離展示《收藏夾吃灰》系列博客

零基礎(chǔ)如何學(xué)爬蟲技術(shù)

**小白都懂的Python爬蟲之網(wǎng)易云音樂下載**

**nodejs做的爬蟲，爬取騰訊動(dòng)漫的內(nèi)容**

Python爬蟲之多線程下載豆瓣Top250電影圖片

發(fā)表評(píng)論

0條評(píng)論

tolerious

男|高級(jí)講師

TA的文章

Veritas最新研究：人為失誤、尷尬心理和勒索軟件給云應(yīng)用帶來消極影響

VernalWeb：美國(guó)達(dá)拉斯全托管服務(wù)器，免費(fèi)cPanel/WHM面板，E-2186G/16 GB

DogYun：新上韓國(guó)獨(dú)立服務(wù)器,E5/SSD+NVMe優(yōu)惠后300元/月,自動(dòng)化上架

前端面試題-偽元素的應(yīng)用

Vue “Cannot read property 'upgrade' of u

國(guó)內(nèi)存在感最低的前端API——瀏覽器路由

【靜態(tài)頁面架構(gòu)】CSS之顯示與溢出

原生js+css 實(shí)現(xiàn) material design 點(diǎn)擊效果

最新活動(dòng)

資訊專欄INFORMATION COLUMN

上云采購季！| 2核2G4M爆款云服務(wù)器低至59元/年，更有多臺(tái)、長(zhǎng)期優(yōu)惠，快來選購！

Python爬蟲之足球小將動(dòng)漫（圖片）下載

相關(guān)文章

發(fā)表評(píng)論

0條評(píng)論

男|高級(jí)講師

TA的文章

最新活動(dòng)

上云采購季！| 2核2G4M爆款云服務(wù)器低至59元/年，更有多臺(tái)、長(zhǎng)期優(yōu)惠，快來選購！