批量抓取網(wǎng)頁(yè)pdf文件

pubdreamcc 發(fā)布于2019-08-02 14:15 / 2811人閱讀

摘要：任務(wù)批量抓取網(wǎng)頁(yè)文件有一個(gè)，里面有數(shù)千條指向下載鏈接的網(wǎng)頁(yè)地址，現(xiàn)在，需要批量抓取這些網(wǎng)頁(yè)地址中的文件。利用，具體邏輯是正常情況下，按次序下載文件，如果同一文件，下載失敗次數(shù)超過(guò)，則跳過(guò)，下載下一個(gè)文件，并記錄錯(cuò)誤信息。

任務(wù)：批量抓取網(wǎng)頁(yè)pdf文件

有一個(gè)excel，里面有數(shù)千條指向pdf下載鏈接的網(wǎng)頁(yè)地址，現(xiàn)在，需要批量抓取這些網(wǎng)頁(yè)地址中的pdf文件。
python環(huán)境：

anaconda3
openpyxl
beautifulsoup4

讀取excel，獲取網(wǎng)頁(yè)地址

使用openpyxl庫(kù)，讀取.xslx文件；
（曾嘗試使用xlrd庫(kù)讀取.xsl文件，但無(wú)法獲取超鏈接）

安裝openpyxl

pip install openpyxl

提取xslx文件中的超鏈接

示例文件構(gòu)造

公告日期	證券代碼	公告標(biāo)題
2018-04-20	603999.SH	讀者傳媒:2017年年度報(bào)告
2018-04-28	603998.SH	方盛制藥:2017年年度報(bào)告

def  readxlsx(path):
    workbook = openpyxl.load_workbook(path)
    Data_sheet = workbook.get_sheet_by_name("sheet1")
    rowNum = Data_sheet.max_row #讀取最大行數(shù)
    c =  3  # 第三列是所需要提取的數(shù)據(jù)
    server =  "http://news.windin.com/ns/"
    for  row  in  range(1, rowNum  +  1):
        link = Data_sheet.cell(row=row, column=c).value
        url = re.split(r""", link)[1]
        print(url)
        downEachPdf(url, server)

獲取網(wǎng)頁(yè)pdf下載地址

進(jìn)入讀者傳媒:2017年年度報(bào)告，在chrome瀏覽器中可以按F12查看網(wǎng)頁(yè)源碼，以下截取部分源碼：

附件:
    603999讀者傳媒2017年年度報(bào)告.pdf    (2.00M)

可見(jiàn)，herf下載鏈接在a標(biāo)簽中，可以通過(guò)解析html源碼獲取下載鏈接。
這里使用BeautifulSoup解析html。

Beautiful Soup 是用Python寫(xiě)的一個(gè)HTML/XML的解析器，它可以很好的處理不規(guī)范標(biāo)記并生成剖析樹(shù)(parse tree)。 它提供簡(jiǎn)單又常用的導(dǎo)航（navigating），搜索以及修改剖析樹(shù)的操作。它可以大大節(jié)省你的編程時(shí)間。

安裝BeautifulSoup4

pip install beautifulsoup4

獲取pdf下載鏈接并下載

def  downEachPdf(target, server):
    req = requests.get(url=target)
    html = req.text
    bf = BeautifulSoup(html, features="lxml")
    a = bf.find_all("a")
    for each in a:
        url = server + each.get("href")
        print("downloading:", each.string, url)
        urllib.request.urlretrieve(url, "./report/" + each.string)

同一ip重復(fù)訪問(wèn)同一服務(wù)器被拒絕

利用以上方法已經(jīng)能夠?qū)崿F(xiàn)批量網(wǎng)頁(yè)pdf的下載了，但是，在實(shí)際操作過(guò)程中，會(huì)發(fā)現(xiàn)如果同一ip頻繁地訪問(wèn)某一服務(wù)器，訪問(wèn)會(huì)被拒絕（可能被誤判為DOS攻擊，通常做了Rate-limit的網(wǎng)站都會(huì)停止響應(yīng)一段時(shí)間，你可以Catch這個(gè)Exception，sleep一段時(shí)間，參考）。因此，對(duì)下載邏輯進(jìn)行了調(diào)整。
利用try-catch，具體邏輯是：正常情況下，按次序下載文件，如果同一文件，下載失敗次數(shù)超過(guò)10，則跳過(guò)，下載下一個(gè)文件，并記錄錯(cuò)誤信息。

import os
import time
def  downloadXml(flag_exists, file_dir, file_name, xml_url):
    if  not flag_exists:
        os.makedirs(file_dir)
        local = os.path.join(file_dir, file_name)
    try:
        urllib.request.urlretrieve(xml_url, local)
    except  Exception  as e:
        print("the first error: ", e)
        cur_try =  0
        total_try =  10
        if cur_try < total_try:
            cur_try +=  1
            time.sleep(15)
            return downloadXml(flag_exists, file_dir, file_name, xml_url)
    else:
        print("the last error: ")
        with  open(test_dir +  "error_url.txt", "a") as f:
            f.write(xml_url)
        raise  Exception(e)

GPU云服務(wù)器云服務(wù)器網(wǎng)頁(yè)抓取抓取中文網(wǎng)頁(yè) 網(wǎng)頁(yè)抓取數(shù)據(jù) 抓取網(wǎng)頁(yè)數(shù)據(jù)

文章版權(quán)歸作者所有，未經(jīng)允許請(qǐng)勿轉(zhuǎn)載,若此文章存在違規(guī)行為，您可以聯(lián)系管理員刪除。

轉(zhuǎn)載請(qǐng)注明本文地址：http://systransis.cn/yun/53683.html

發(fā)表評(píng)論

登陸后可評(píng)論

0條評(píng)論

pubdreamcc

男|高級(jí)講師

我要關(guān)注我要私信

TA的文章

博鰲云：香港大帶寬服務(wù)器,臺(tái)灣服務(wù)器促銷￥799/月;CN2線路,免費(fèi)裝windows系統(tǒng)

閱讀 1684·2021-09-26 10:00
第一節(jié)·導(dǎo)讀與通用開(kāi)發(fā)歷程

閱讀 2943·2021-09-06 15:00
字節(jié)跳動(dòng)薪資普降 17% ？看看這屆網(wǎng)友怎么說(shuō)？

閱讀 3550·2021-09-04 16:40
真正理解nth-of-type，只知道nth-of-type和nth-child的區(qū)別？怕是不夠哦！

閱讀 2319·2019-08-30 15:44
WEB頁(yè)面實(shí)現(xiàn)等比例縮放自適應(yīng) - 通過(guò) rem 和 vw 實(shí)現(xiàn)

閱讀 727·2019-08-30 10:59
fastclick在移動(dòng)端使用input=“file”上傳文件時(shí)label中的內(nèi)容不能觸發(fā)chang

閱讀 1900·2019-08-29 18:34
【Vue】外部JSON數(shù)據(jù)引用Iconfont

閱讀 3628·2019-08-29 15:42
作為前端，如何幫帝都的朋友租到合適的房子

閱讀 2305·2019-08-29 15:36

成人国产在线小视频_日韩寡妇人妻调教在线播放_色成人www永久在线观看_2018国产精品久久_亚洲欧美高清在线30p_亚洲少妇综合一区_黄色在线播放国产_亚洲另类技巧小说校园_国产主播xx日韩_a级毛片在线免费

資訊專欄INFORMATION COLUMN

上云采購(gòu)季！| 2核2G4M爆款云服務(wù)器低至59元/年，更有多臺(tái)、長(zhǎng)期優(yōu)惠，快來(lái)選購(gòu)！

批量抓取網(wǎng)頁(yè)pdf文件

相關(guān)文章