成人国产在线小视频_日韩寡妇人妻调教在线播放_色成人www永久在线观看_2018国产精品久久_亚洲欧美高清在线30p_亚洲少妇综合一区_黄色在线播放国产_亚洲另类技巧小说校园_国产主播xx日韩_a级毛片在线免费

資訊專欄INFORMATION COLUMN

Python讀取PDF內(nèi)容

callmewhy / 3422人閱讀

摘要:,引言晚上翻看網(wǎng)絡(luò)數(shù)據(jù)采集這本書(shū),看到讀取內(nèi)容的代碼,想起來(lái)前幾天集搜客剛剛發(fā)布了一個(gè)抓取網(wǎng)頁(yè)內(nèi)容的抓取規(guī)則,這個(gè)規(guī)則能夠把內(nèi)容當(dāng)成來(lái)做網(wǎng)頁(yè)抓取。,把轉(zhuǎn)換成文本的源代碼下面的源代碼,讀取文件內(nèi)容互聯(lián)網(wǎng)上的或是本地的,轉(zhuǎn)換成文本,打印出來(lái)。

1,引言

晚上翻看《Python網(wǎng)絡(luò)數(shù)據(jù)采集》這本書(shū),看到讀取PDF內(nèi)容的代碼,想起來(lái)前幾天集搜客剛剛發(fā)布了一個(gè)抓取網(wǎng)頁(yè)pdf內(nèi)容的抓取規(guī)則,這個(gè)規(guī)則能夠把pdf內(nèi)容當(dāng)成html來(lái)做網(wǎng)頁(yè)抓取。神奇之處要?dú)w功于Firefox解析PDF的能力,能夠把pdf格式轉(zhuǎn)換成html標(biāo)簽,比如,div之類的標(biāo)簽,從而用GooSeeker網(wǎng)頁(yè)抓取軟件像抓普通網(wǎng)頁(yè)一樣抓取結(jié)構(gòu)化內(nèi)容。

從而產(chǎn)生了一個(gè)問(wèn)題:用Python爬蟲(chóng)的話,能做到什么程度。下面將講述一個(gè)實(shí)驗(yàn)過(guò)程和源代碼。

2,把pdf轉(zhuǎn)換成文本的Python源代碼

下面的python源代碼,讀取pdf文件內(nèi)容(互聯(lián)網(wǎng)上的或是本地的),轉(zhuǎn)換成文本,打印出來(lái)。這段代碼主要用了一個(gè)第三方庫(kù)PDFMiner3K把PDF讀成字符串,然后用StringIO轉(zhuǎn)換成文件對(duì)象。(源代碼下載地址參看文章末尾的GitHub源)

from urllib.request import urlopen
from pdfminer.pdfinterp import PDFResourceManager, process_pdf
from pdfminer.converter import TextConverter
from pdfminer.layout import LAParams
from io import StringIO
from io import open

def readPDF(pdfFile):
    rsrcmgr = PDFResourceManager()
    retstr = StringIO()
    laparams = LAParams()
    device = TextConverter(rsrcmgr, retstr, laparams=laparams)

    process_pdf(rsrcmgr, device, pdfFile)
    device.close()

    content = retstr.getvalue()
    retstr.close()
    return content

pdfFile = urlopen("http://pythonscraping.com/pages/warandpeace/chapter1.pdf")
outputString = readPDF(pdfFile)
print(outputString)
pdfFile.close()

如果PDF文件在你的電腦里,那就把urlopen返回的對(duì)象pdfFile替換成普通的open()文件對(duì)象。

3,展望

這個(gè)實(shí)驗(yàn)只是把pdf轉(zhuǎn)換成了文本,但是沒(méi)有像開(kāi)頭所說(shuō)的轉(zhuǎn)換成html標(biāo)簽,那么在Python編程環(huán)境下是否有這個(gè)能力,留待今后探索。

4,集搜客GooSeeker開(kāi)源代碼下載源

1.GooSeeker開(kāi)源Python網(wǎng)絡(luò)爬蟲(chóng)GitHub源

5,文檔修改歷史

2016-05-26:V2.0,增補(bǔ)文字說(shuō)明
2016-05-29:V2.1,增加第六章:源代碼下載源,并更換github源的網(wǎng)址

文章版權(quán)歸作者所有,未經(jīng)允許請(qǐng)勿轉(zhuǎn)載,若此文章存在違規(guī)行為,您可以聯(lián)系管理員刪除。

轉(zhuǎn)載請(qǐng)注明本文地址:http://systransis.cn/yun/37973.html

相關(guān)文章

  • Python之將Python字符串生成PDF

    摘要:筆者在今天的工作中,遇到了一個(gè)需求,那就是如何將字符串生成。比如,需要把字符串這是測(cè)試文件生成為該中含有文字這是測(cè)試文件。 ??筆者在今天的工作中,遇到了一個(gè)需求,那就是如何將Python字符串生成PDF。比如,需要把Python字符串‘這是測(cè)試文件’生成為PDF, 該P(yáng)DF中含有文字‘這是測(cè)試文件’。??經(jīng)過(guò)一番檢索,筆者決定采用wkhtmltopdf這個(gè)軟件,它可以將HTML轉(zhuǎn)化為...

    Freelander 評(píng)論0 收藏0
  • 教你20行python代碼實(shí)現(xiàn)編輯永久免費(fèi)pdf工具

      小編寫(xiě)這篇文章的主要目的,主要是給大家介紹一下關(guān)于python代碼實(shí)現(xiàn)pdf編輯免費(fèi)pdf工具相關(guān)知識(shí)的解答。  PDF是在日常生活中使用范圍還是比較的廣泛的,很多的文檔都是PDF格式。格式穩(wěn)定是他的一個(gè)優(yōu)勢(shì),使得我們?cè)诖蛴?、分享、傳輸過(guò)程中能夠最優(yōu)的保持原有色彩和格式?! DF各種各樣的的版本是比較的多的,它在格式的穩(wěn)定性方面雖然具有很大優(yōu)勢(shì)。但是,在可編輯性方面卻為使用者引入了另外一個(gè)困...

    89542767 評(píng)論0 收藏0
  • 數(shù)據(jù)分析遇到PDF文本,怎么用Python批量提取內(nèi)容

    摘要:復(fù)雜系統(tǒng)仿真的微博客虛假信息擴(kuò)散模型研究面向影子分析的社交媒體競(jìng)爭(zhēng)情報(bào)搜集面向人機(jī)協(xié)同的移動(dòng)互聯(lián)網(wǎng)政務(wù)門戶探析經(jīng)驗(yàn)證。微博客的企業(yè)競(jìng)爭(zhēng)情報(bào)搜集移動(dòng)社交媒體用戶隱私保護(hù)對(duì)策研究注意這里的提示,原先的個(gè)文件沒(méi)有被再次抽取,只有個(gè)新文件被抽取。 showImg(https://segmentfault.com/img/bVbiU7y?w=1000&h=508); 本文為你展示,如何用Pyth...

    cloud 評(píng)論0 收藏0
  • Python之合并PDF文件

    摘要:在日常的學(xué)習(xí)生活工作中,我們有時(shí)會(huì)遇到需要合并文件的需求。模塊的相關(guān)參考文檔網(wǎng)址為本文將介紹如何利用來(lái)完成文件的合并。 ??在日常的學(xué)習(xí)生活工作中,我們有時(shí)會(huì)遇到需要合并PDF文件的需求。這時(shí),我們可以利用相關(guān)的PDF軟件(如Adobe Acrobat Reader DC)來(lái)完成這個(gè)任務(wù),幸運(yùn)的是,Python也為我們提供了這方面的處理模塊PyPDF2, 借用它,我們可以利用Pytho...

    maxmin 評(píng)論0 收藏0

發(fā)表評(píng)論

0條評(píng)論

最新活動(dòng)
閱讀需要支付1元查看
<