Python讀取PDF內(nèi)容

callmewhy 發(fā)布于2019-07-25 10:27 / 3422人閱讀

摘要：，引言晚上翻看網(wǎng)絡(luò)數(shù)據(jù)采集這本書(shū)，看到讀取內(nèi)容的代碼，想起來(lái)前幾天集搜客剛剛發(fā)布了一個(gè)抓取網(wǎng)頁(yè)內(nèi)容的抓取規(guī)則，這個(gè)規(guī)則能夠把內(nèi)容當(dāng)成來(lái)做網(wǎng)頁(yè)抓取。，把轉(zhuǎn)換成文本的源代碼下面的源代碼，讀取文件內(nèi)容互聯(lián)網(wǎng)上的或是本地的，轉(zhuǎn)換成文本，打印出來(lái)。

1，引言

晚上翻看《Python網(wǎng)絡(luò)數(shù)據(jù)采集》這本書(shū)，看到讀取PDF內(nèi)容的代碼，想起來(lái)前幾天集搜客剛剛發(fā)布了一個(gè)抓取網(wǎng)頁(yè)pdf內(nèi)容的抓取規(guī)則，這個(gè)規(guī)則能夠把pdf內(nèi)容當(dāng)成html來(lái)做網(wǎng)頁(yè)抓取。神奇之處要?dú)w功于Firefox解析PDF的能力，能夠把pdf格式轉(zhuǎn)換成html標(biāo)簽，比如，div之類的標(biāo)簽，從而用GooSeeker網(wǎng)頁(yè)抓取軟件像抓普通網(wǎng)頁(yè)一樣抓取結(jié)構(gòu)化內(nèi)容。

從而產(chǎn)生了一個(gè)問(wèn)題：用Python爬蟲(chóng)的話，能做到什么程度。下面將講述一個(gè)實(shí)驗(yàn)過(guò)程和源代碼。

2，把pdf轉(zhuǎn)換成文本的Python源代碼

下面的python源代碼，讀取pdf文件內(nèi)容(互聯(lián)網(wǎng)上的或是本地的)，轉(zhuǎn)換成文本，打印出來(lái)。這段代碼主要用了一個(gè)第三方庫(kù)PDFMiner3K把PDF讀成字符串，然后用StringIO轉(zhuǎn)換成文件對(duì)象。（源代碼下載地址參看文章末尾的GitHub源）

from urllib.request import urlopen
from pdfminer.pdfinterp import PDFResourceManager, process_pdf
from pdfminer.converter import TextConverter
from pdfminer.layout import LAParams
from io import StringIO
from io import open

def readPDF(pdfFile):
    rsrcmgr = PDFResourceManager()
    retstr = StringIO()
    laparams = LAParams()
    device = TextConverter(rsrcmgr, retstr, laparams=laparams)

    process_pdf(rsrcmgr, device, pdfFile)
    device.close()

    content = retstr.getvalue()
    retstr.close()
    return content

pdfFile = urlopen("http://pythonscraping.com/pages/warandpeace/chapter1.pdf")
outputString = readPDF(pdfFile)
print(outputString)
pdfFile.close()

如果PDF文件在你的電腦里，那就把urlopen返回的對(duì)象pdfFile替換成普通的open()文件對(duì)象。

3，展望

這個(gè)實(shí)驗(yàn)只是把pdf轉(zhuǎn)換成了文本，但是沒(méi)有像開(kāi)頭所說(shuō)的轉(zhuǎn)換成html標(biāo)簽，那么在Python編程環(huán)境下是否有這個(gè)能力，留待今后探索。

4，集搜客GooSeeker開(kāi)源代碼下載源

1.GooSeeker開(kāi)源Python網(wǎng)絡(luò)爬蟲(chóng)GitHub源

5，文檔修改歷史

2016-05-26：V2.0，增補(bǔ)文字說(shuō)明
2016-05-29：V2.1，增加第六章：源代碼下載源，并更換github源的網(wǎng)址

云服務(wù)器 GPU云服務(wù)器內(nèi)容讀取讀取文件內(nèi)容 php讀取文件內(nèi)容 java讀取文件內(nèi)容

文章版權(quán)歸作者所有，未經(jīng)允許請(qǐng)勿轉(zhuǎn)載,若此文章存在違規(guī)行為，您可以聯(lián)系管理員刪除。

轉(zhuǎn)載請(qǐng)注明本文地址：http://systransis.cn/yun/37973.html

發(fā)表評(píng)論

登陸后可評(píng)論

0條評(píng)論

callmewhy

男|高級(jí)講師

我要關(guān)注我要私信

TA的文章

普通大一學(xué)生的自我反思

閱讀 2347·2021-11-15 11:38
買了云主機(jī)還要買什么-我需要云存儲(chǔ)為什么要先買云主機(jī)？

閱讀 3557·2021-09-22 15:16
Hostdare：CN2 GIA線路9折優(yōu)惠，KVM架構(gòu)，洛杉磯Cera機(jī)房，年付$44.99起

閱讀 1200·2021-09-10 11:11
C++多態(tài)底層刨析(虛函數(shù)指針，虛函數(shù)表)

閱讀 3170·2021-09-10 10:51
Web 性能優(yōu)化：21種優(yōu)化CSS和加快網(wǎng)站速度的方法

閱讀 2949·2019-08-30 15:56
用鍵盤8個(gè)鍵演奏一首蒲公英的約定送給996的自己或者一首月亮代表我的心給七夕的她

閱讀 2789·2019-08-30 15:44
小番茄的CSS筆記匯總（二）

閱讀 3194·2019-08-28 18:28
每日 30 秒 ? 判斷是否為頁(yè)面底部

閱讀 3533·2019-08-26 13:36

成人国产在线小视频_日韩寡妇人妻调教在线播放_色成人www永久在线观看_2018国产精品久久_亚洲欧美高清在线30p_亚洲少妇综合一区_黄色在线播放国产_亚洲另类技巧小说校园_国产主播xx日韩_a级毛片在线免费

資訊專欄INFORMATION COLUMN

上云采購(gòu)季！| 2核2G4M爆款云服務(wù)器低至59元/年，更有多臺(tái)、長(zhǎng)期優(yōu)惠，快來(lái)選購(gòu)！

Python讀取PDF內(nèi)容

相關(guān)文章

***Python之將Python字符串生成PDF***

**教你20行python代碼實(shí)現(xiàn)編輯永久免費(fèi)pdf工具**

數(shù)據(jù)分析遇到PDF文本，怎么用Python批量提取內(nèi)容

Python之合并PDF文件

發(fā)表評(píng)論

0條評(píng)論

callmewhy

男|高級(jí)講師

TA的文章

普通大一學(xué)生的自我反思

買了云主機(jī)還要買什么-我需要云存儲(chǔ)為什么要先買云主機(jī)？

Hostdare：CN2 GIA線路9折優(yōu)惠，KVM架構(gòu)，洛杉磯Cera機(jī)房，年付$44.99起

C++多態(tài)底層刨析(虛函數(shù)指針，虛函數(shù)表)

Web 性能優(yōu)化：21種優(yōu)化CSS和加快網(wǎng)站速度的方法

用鍵盤8個(gè)鍵演奏一首蒲公英的約定送給996的自己或者一首月亮代表我的心給七夕的她

小番茄的CSS筆記匯總（二）

每日 30 秒 ? 判斷是否為頁(yè)面底部

最新活動(dòng)

資訊專欄INFORMATION COLUMN

上云采購(gòu)季！| 2核2G4M爆款云服務(wù)器低至59元/年，更有多臺(tái)、長(zhǎng)期優(yōu)惠，快來(lái)選購(gòu)！

Python讀取PDF內(nèi)容

相關(guān)文章

發(fā)表評(píng)論

0條評(píng)論

男|高級(jí)講師

TA的文章

最新活動(dòng)

上云采購(gòu)季！| 2核2G4M爆款云服務(wù)器低至59元/年，更有多臺(tái)、長(zhǎng)期優(yōu)惠，快來(lái)選購(gòu)！