成人国产在线小视频_日韩寡妇人妻调教在线播放_色成人www永久在线观看_2018国产精品久久_亚洲欧美高清在线30p_亚洲少妇综合一区_黄色在线播放国产_亚洲另类技巧小说校园_国产主播xx日韩_a级毛片在线免费

資訊專欄INFORMATION COLUMN

Python3爬蟲下載pdf(二)

LancerComet / 2469人閱讀

摘要:爬蟲下載二最近在學(xué)習(xí)的爬蟲,并且玩的不亦說乎,因此寫個(gè)博客,記錄并分享一下。需下載下載以下模塊模塊模塊一源碼設(shè)置命令行參數(shù)功能下載目標(biāo)最大的線程數(shù)。方法的作用與內(nèi)置函數(shù)類似,不過函數(shù)會在多個(gè)線程中并發(fā)調(diào)用方法返回一個(gè)生成器。

Python3爬蟲下載pdf(二)

最近在學(xué)習(xí)python的爬蟲,并且玩的不亦說乎,因此寫個(gè)博客,記錄并分享一下。

需下載下載以下模塊

bs4模塊

requests模塊

一、源碼
from concurrent.futures import ThreadPoolExecutor
import requests,argparse,re,os
from bs4 import BeautifulSoup as Soup

headers = {
        "User-Agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64; rv:54.0) Gecko/20100101 Firefox/54.0"
    }
    
## 設(shè)置命令行參數(shù)
def setArgs():
    parser = argparse.ArgumentParser(description="功能:下載pdf")
    parser.add_argument("url",help="目標(biāo)url")
    parser.add_argument("-t","--thread",help="最大的線程數(shù)。默認(rèn)為3",default=3,type=int)
    parser.add_argument("-f","--filedir",help="文件保存的路徑.默認(rèn)為當(dāng)前目錄下的downloads文件夾.如果不存在,便自動新建",default="downloads")
    return parser.parse_args()
    
## 獲取所有pdf的url
def getPdfUrl(root_url):
    response = requests.get(root_url, headers=headers)
    ## 如果requests沒有從頁面中獲得字符編碼,那么設(shè)置為utf-8
    if "charset" not in response.headers:
        response.encoding = "utf-8"
    bsObj = Soup(response.text, "html.parser")
    pdfs = bsObj.find_all("a", {"href": re.compile(r".pdf$")})
    ## 獲得一個(gè)字典,key為pdf完整url,value為pdf名稱
    url_pdfName = {root_url[:root_url.rfind("/")+1]+pdf["href"]:pdf.string for pdf in pdfs}
    return url_pdfName

## 顯示正在下載的pdf的名稱
def showPdf(pdf_name):
    print(pdf_name+"...")

## 下載pdf
def savePdf(url,pdf_name):
    response = requests.get(url,headers=headers,stream=True)
    ## 如果指定的文件夾,那么便新建
    if not os.path.exists(FILE_DIR):
        os.makedirs(FILE_DIR)
    ## os.path.join(a,b..)如果a字符串沒有以/結(jié)尾,那么自動加上。(windows下)
    with open(os.path.join(FILE_DIR,pdf_name),"wb") as pdf_file:
        for content in response.iter_content():
            pdf_file.write(content)

## 設(shè)置要下載一個(gè)pdf要做的事情,作為線程的基本
def downOne(url,pdf_name):
    showPdf(pdf_name)
    savePdf(url,pdf_name)
    print(pdf_name+" has been downloaded!!")
    
## 開始線程
def downPdf(root_url,max_thread):
    url_pdfName = getPdfUrl(root_url)
    with ThreadPoolExecutor(max_thread) as executor:
        executor.map(downOne,url_pdfName.keys(),url_pdfName.values())

def main():
    ## 獲得參數(shù)
    args = setArgs()
    ## 如果沒有輸入必須的參數(shù),便結(jié)束,返回簡略幫助
    try:
        global FILE_DIR
        FILE_DIR = args.filedir
        downPdf(args.url,args.thread)
    except:
        exit()

if __name__ == "__main__":
    main()
效果圖


例子:

備注
with ThreadPoolExecutor(max_thread) as executor:
     executor.map(downOne,url_pdfName.keys(),url_pdfName.values())

使用工作的線程實(shí)例化ThreadPoolExecutor 類;executor._exit_ 方法會調(diào)用executor.shutdown(wait=True) 方法,它會在所有線程都執(zhí)行完畢前阻塞線程。

map方法的作用與內(nèi)置map函數(shù)類似,不過downOne函數(shù)會在多個(gè)線程中并發(fā)調(diào)用;map方法返回一個(gè)生成器。

global FILE_DIR
FILE_DIR = args.filedir

設(shè)置了全局參數(shù),用來接收文件路徑的值

因?yàn)楹竺嬗?strong>executor.map() 傳參的時(shí)候,參數(shù)必須是iterabe,不知道咋放了,所以就設(shè)了個(gè)全局變量

文章版權(quán)歸作者所有,未經(jīng)允許請勿轉(zhuǎn)載,若此文章存在違規(guī)行為,您可以聯(lián)系管理員刪除。

轉(zhuǎn)載請注明本文地址:http://systransis.cn/yun/40762.html

相關(guān)文章

  • Python3爬蟲下載pdf(一)

    摘要:爬蟲下載一最近在學(xué)習(xí)的爬蟲,并且玩的不亦說乎,因此寫個(gè)博客,記錄并分享一下。 Python3爬蟲下載pdf(一) 最近在學(xué)習(xí)python的爬蟲,并且玩的不亦說乎,因此寫個(gè)博客,記錄并分享一下。 需下載以下模塊 bs4 模塊 requests 模塊 一、源碼 功能:下載指定url內(nèi)的所有的pdf 語法:將含有pdf的url放到腳本后面執(zhí)行就可以了 from bs4 import...

    instein 評論0 收藏0
  • 爬蟲 - 收藏集 - 掘金

    摘要:在這之前,還是有必要對一些概念超輕量級反爬蟲方案后端掘金前言爬蟲和反爬蟲日益成為每家公司的標(biāo)配系統(tǒng)。 爬蟲修煉之道——從網(wǎng)頁中提取結(jié)構(gòu)化數(shù)據(jù)并保存(以爬取糗百文本板塊所有糗事為例) - 后端 - 掘金歡迎大家關(guān)注我的專題:爬蟲修煉之道 上篇 爬蟲修煉之道——編寫一個(gè)爬取多頁面的網(wǎng)絡(luò)爬蟲主要講解了如何使用python編寫一個(gè)可以下載多頁面的爬蟲,如何將相對URL轉(zhuǎn)為絕對URL,如何限速,...

    1fe1se 評論0 收藏0
  • 50行Python代碼,教你獲取公眾號全部文章

    摘要:今天介紹一種通過抓包端微信的方式去獲取公眾號文章的方法。如上圖,通過抓包工具獲取微信的網(wǎng)絡(luò)信息請求,我們發(fā)現(xiàn)每次下拉刷新文章的時(shí)候都會請求這個(gè)接口。 本文首發(fā)自公眾號:python3xxx 爬取公眾號的方式常見的有兩種 通過搜狗搜索去獲取,缺點(diǎn)是只能獲取最新的十條推送文章 通過微信公眾號的素材管理,獲取公眾號文章。缺點(diǎn)是需要申請自己的公眾號。 showImg(//img.mukew...

    MartinHan 評論0 收藏0
  • Python3網(wǎng)絡(luò)爬蟲實(shí)戰(zhàn)---16、Web網(wǎng)頁基礎(chǔ)

    摘要:,簡稱為,是一種腳本語言,和配合使用,提供給用戶的只是一種靜態(tài)的信息,缺少交互性。這就是網(wǎng)頁的三大基本組成。父節(jié)點(diǎn)擁有子節(jié)點(diǎn),同級的子節(jié)點(diǎn)被稱為兄弟節(jié)點(diǎn)。選擇屬于其父節(jié)點(diǎn)的首個(gè)節(jié)點(diǎn)的每個(gè)節(jié)點(diǎn)。同上,從最后一個(gè) 上一篇文章:Python3網(wǎng)絡(luò)爬蟲實(shí)戰(zhàn)---15、爬蟲基礎(chǔ):HTTP基本原理下一篇文章:Python3網(wǎng)絡(luò)爬蟲實(shí)戰(zhàn)---17、爬蟲基本原理 我們平時(shí)用瀏覽器訪問網(wǎng)站的時(shí)候,一個(gè)...

    netScorpion 評論0 收藏0
  • 首次公開,整理12年積累的博客收藏夾,零距離展示《收藏夾吃灰》系列博客

    摘要:時(shí)間永遠(yuǎn)都過得那么快,一晃從年注冊,到現(xiàn)在已經(jīng)過去了年那些被我藏在收藏夾吃灰的文章,已經(jīng)太多了,是時(shí)候把他們整理一下了。那是因?yàn)槭詹貖A太亂,橡皮擦給設(shè)置私密了,不收拾不好看呀。 ...

    Harriet666 評論0 收藏0

發(fā)表評論

0條評論

最新活動
閱讀需要支付1元查看
<