Python3爬蟲下載pdf（二）

LancerComet 發(fā)布于2019-07-30 14:32 / 2469人閱讀

摘要：爬蟲下載二最近在學(xué)習(xí)的爬蟲，并且玩的不亦說乎，因此寫個(gè)博客，記錄并分享一下。需下載下載以下模塊模塊模塊一源碼設(shè)置命令行參數(shù)功能下載目標(biāo)最大的線程數(shù)。方法的作用與內(nèi)置函數(shù)類似，不過函數(shù)會在多個(gè)線程中并發(fā)調(diào)用方法返回一個(gè)生成器。

Python3爬蟲下載pdf（二）

最近在學(xué)習(xí)python的爬蟲，并且玩的不亦說乎，因此寫個(gè)博客，記錄并分享一下。

需下載下載以下模塊

bs4模塊

requests模塊

一、源碼

from concurrent.futures import ThreadPoolExecutor
import requests,argparse,re,os
from bs4 import BeautifulSoup as Soup

headers = {
        "User-Agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64; rv:54.0) Gecko/20100101 Firefox/54.0"
    }
    
## 設(shè)置命令行參數(shù)
def setArgs():
    parser = argparse.ArgumentParser(description="功能：下載pdf")
    parser.add_argument("url",help="目標(biāo)url")
    parser.add_argument("-t","--thread",help="最大的線程數(shù)。默認(rèn)為3",default=3,type=int)
    parser.add_argument("-f","--filedir",help="文件保存的路徑.默認(rèn)為當(dāng)前目錄下的downloads文件夾.如果不存在，便自動新建",default="downloads")
    return parser.parse_args()
    
## 獲取所有pdf的url
def getPdfUrl(root_url):
    response = requests.get(root_url, headers=headers)
    ## 如果requests沒有從頁面中獲得字符編碼，那么設(shè)置為utf-8
    if "charset" not in response.headers:
        response.encoding = "utf-8"
    bsObj = Soup(response.text, "html.parser")
    pdfs = bsObj.find_all("a", {"href": re.compile(r".pdf$")})
    ## 獲得一個(gè)字典，key為pdf完整url，value為pdf名稱
    url_pdfName = {root_url[:root_url.rfind("/")+1]+pdf["href"]:pdf.string for pdf in pdfs}
    return url_pdfName

## 顯示正在下載的pdf的名稱
def showPdf(pdf_name):
    print(pdf_name+"...")

## 下載pdf
def savePdf(url,pdf_name):
    response = requests.get(url,headers=headers,stream=True)
    ## 如果指定的文件夾，那么便新建
    if not os.path.exists(FILE_DIR):
        os.makedirs(FILE_DIR)
    ## os.path.join(a,b..)如果a字符串沒有以/結(jié)尾，那么自動加上。（windows下）
    with open(os.path.join(FILE_DIR,pdf_name),"wb") as pdf_file:
        for content in response.iter_content():
            pdf_file.write(content)

## 設(shè)置要下載一個(gè)pdf要做的事情，作為線程的基本
def downOne(url,pdf_name):
    showPdf(pdf_name)
    savePdf(url,pdf_name)
    print(pdf_name+" has been downloaded!!")
    
## 開始線程
def downPdf(root_url,max_thread):
    url_pdfName = getPdfUrl(root_url)
    with ThreadPoolExecutor(max_thread) as executor:
        executor.map(downOne,url_pdfName.keys(),url_pdfName.values())

def main():
    ## 獲得參數(shù)
    args = setArgs()
    ## 如果沒有輸入必須的參數(shù)，便結(jié)束，返回簡略幫助
    try:
        global FILE_DIR
        FILE_DIR = args.filedir
        downPdf(args.url,args.thread)
    except:
        exit()

if __name__ == "__main__":
    main()

效果圖

例子：

備注

with ThreadPoolExecutor(max_thread) as executor:
     executor.map(downOne,url_pdfName.keys(),url_pdfName.values())

使用工作的線程實(shí)例化ThreadPoolExecutor 類；executor._exit_ 方法會調(diào)用executor.shutdown(wait=True) 方法，它會在所有線程都執(zhí)行完畢前阻塞線程。

map方法的作用與內(nèi)置map函數(shù)類似，不過downOne函數(shù)會在多個(gè)線程中并發(fā)調(diào)用；map方法返回一個(gè)生成器。

global FILE_DIR
FILE_DIR = args.filedir

設(shè)置了全局參數(shù)，用來接收文件路徑的值

因?yàn)楹竺嬗?strong>executor.map() 傳參的時(shí)候，參數(shù)必須是iterabe，不知道咋放了，所以就設(shè)了個(gè)全局變量

GPU云服務(wù)器云服務(wù)器 python3 爬蟲 python3爬蟲爬蟲python3 python爬蟲pdf

文章版權(quán)歸作者所有，未經(jīng)允許請勿轉(zhuǎn)載,若此文章存在違規(guī)行為，您可以聯(lián)系管理員刪除。

轉(zhuǎn)載請注明本文地址：http://systransis.cn/yun/40762.html

發(fā)表評論

登陸后可評論

0條評論

LancerComet

男|高級講師

我要關(guān)注我要私信

TA的文章

技術(shù)生涯記錄

閱讀 2618·2021-11-22 15:25
Database Mart：黑色星期五，最高達(dá)60%優(yōu)惠，美國vps，$3.99/月，GPU服務(wù)器$

閱讀 1448·2021-11-15 17:59
行業(yè)報(bào)告 | 2021.09.28 | 研報(bào)目錄更新

閱讀 1149·2021-09-29 09:34
ABAP開發(fā)知識點(diǎn)整理

閱讀 1557·2021-09-26 09:46
【如何構(gòu)建商業(yè)級別聊天系統(tǒng)】 MQTT 篇（四）MQTT 特性之持久會話、保留消息、遺囑

閱讀 3048·2021-09-02 15:40
前端培訓(xùn)-初級階段（9 -12）

閱讀 1201·2019-08-30 15:56
text-fill-color：仿蘋果官網(wǎng)介紹效果 CSS設(shè)置文字漸變效果文字背景圖遮罩

閱讀 3295·2019-08-30 15:55
2018你成長了么？一份給你的前端技術(shù)清單

閱讀 705·2019-08-29 17:08

成人国产在线小视频_日韩寡妇人妻调教在线播放_色成人www永久在线观看_2018国产精品久久_亚洲欧美高清在线30p_亚洲少妇综合一区_黄色在线播放国产_亚洲另类技巧小说校园_国产主播xx日韩_a级毛片在线免费

資訊專欄INFORMATION COLUMN

上云采購季！| 2核2G4M爆款云服務(wù)器低至59元/年，更有多臺、長期優(yōu)惠，快來選購！

Python3爬蟲下載pdf（二）

相關(guān)文章

Python3爬蟲下載pdf（一）

爬蟲 - 收藏集 - 掘金

50行Python代碼，教你獲取公眾號全部文章

Python3網(wǎng)絡(luò)爬蟲實(shí)戰(zhàn)---16、Web網(wǎng)頁基礎(chǔ)

首次公開，整理12年積累的博客收藏夾，零距離展示《收藏夾吃灰》系列博客

發(fā)表評論

0條評論

LancerComet

男|高級講師

TA的文章

技術(shù)生涯記錄

Database Mart：黑色星期五，最高達(dá)60%優(yōu)惠，美國vps，$3.99/月，GPU服務(wù)器$

行業(yè)報(bào)告 | 2021.09.28 | 研報(bào)目錄更新

ABAP開發(fā)知識點(diǎn)整理

【如何構(gòu)建商業(yè)級別聊天系統(tǒng)】 MQTT 篇（四）MQTT 特性之持久會話、保留消息、遺囑

前端培訓(xùn)-初級階段（9 -12）

text-fill-color：仿蘋果官網(wǎng)介紹效果 CSS設(shè)置文字漸變效果文字背景圖遮罩

2018你成長了么？一份給你的前端技術(shù)清單

最新活動

資訊專欄INFORMATION COLUMN

上云采購季！| 2核2G4M爆款云服務(wù)器低至59元/年，更有多臺、長期優(yōu)惠，快來選購！

Python3爬蟲下載pdf（二）

相關(guān)文章

發(fā)表評論

0條評論

男|高級講師

TA的文章

最新活動

上云采購季！| 2核2G4M爆款云服務(wù)器低至59元/年，更有多臺、長期優(yōu)惠，快來選購！