摘要:,引言晚上翻看網(wǎng)絡(luò)數(shù)據(jù)采集這本書(shū),看到讀取內(nèi)容的代碼,想起來(lái)前幾天集搜客剛剛發(fā)布了一個(gè)抓取網(wǎng)頁(yè)內(nèi)容的抓取規(guī)則,這個(gè)規(guī)則能夠把內(nèi)容當(dāng)成來(lái)做網(wǎng)頁(yè)抓取。,把轉(zhuǎn)換成文本的源代碼下面的源代碼,讀取文件內(nèi)容互聯(lián)網(wǎng)上的或是本地的,轉(zhuǎn)換成文本,打印出來(lái)。
1,引言
晚上翻看《Python網(wǎng)絡(luò)數(shù)據(jù)采集》這本書(shū),看到讀取PDF內(nèi)容的代碼,想起來(lái)前幾天集搜客剛剛發(fā)布了一個(gè)抓取網(wǎng)頁(yè)pdf內(nèi)容的抓取規(guī)則,這個(gè)規(guī)則能夠把pdf內(nèi)容當(dāng)成html來(lái)做網(wǎng)頁(yè)抓取。神奇之處要?dú)w功于Firefox解析PDF的能力,能夠把pdf格式轉(zhuǎn)換成html標(biāo)簽,比如,div之類的標(biāo)簽,從而用GooSeeker網(wǎng)頁(yè)抓取軟件像抓普通網(wǎng)頁(yè)一樣抓取結(jié)構(gòu)化內(nèi)容。
從而產(chǎn)生了一個(gè)問(wèn)題:用Python爬蟲(chóng)的話,能做到什么程度。下面將講述一個(gè)實(shí)驗(yàn)過(guò)程和源代碼。
2,把pdf轉(zhuǎn)換成文本的Python源代碼下面的python源代碼,讀取pdf文件內(nèi)容(互聯(lián)網(wǎng)上的或是本地的),轉(zhuǎn)換成文本,打印出來(lái)。這段代碼主要用了一個(gè)第三方庫(kù)PDFMiner3K把PDF讀成字符串,然后用StringIO轉(zhuǎn)換成文件對(duì)象。(源代碼下載地址參看文章末尾的GitHub源)
from urllib.request import urlopen from pdfminer.pdfinterp import PDFResourceManager, process_pdf from pdfminer.converter import TextConverter from pdfminer.layout import LAParams from io import StringIO from io import open def readPDF(pdfFile): rsrcmgr = PDFResourceManager() retstr = StringIO() laparams = LAParams() device = TextConverter(rsrcmgr, retstr, laparams=laparams) process_pdf(rsrcmgr, device, pdfFile) device.close() content = retstr.getvalue() retstr.close() return content pdfFile = urlopen("http://pythonscraping.com/pages/warandpeace/chapter1.pdf") outputString = readPDF(pdfFile) print(outputString) pdfFile.close()
如果PDF文件在你的電腦里,那就把urlopen返回的對(duì)象pdfFile替換成普通的open()文件對(duì)象。
3,展望這個(gè)實(shí)驗(yàn)只是把pdf轉(zhuǎn)換成了文本,但是沒(méi)有像開(kāi)頭所說(shuō)的轉(zhuǎn)換成html標(biāo)簽,那么在Python編程環(huán)境下是否有這個(gè)能力,留待今后探索。
4,集搜客GooSeeker開(kāi)源代碼下載源1.GooSeeker開(kāi)源Python網(wǎng)絡(luò)爬蟲(chóng)GitHub源
5,文檔修改歷史2016-05-26:V2.0,增補(bǔ)文字說(shuō)明
2016-05-29:V2.1,增加第六章:源代碼下載源,并更換github源的網(wǎng)址
文章版權(quán)歸作者所有,未經(jīng)允許請(qǐng)勿轉(zhuǎn)載,若此文章存在違規(guī)行為,您可以聯(lián)系管理員刪除。
轉(zhuǎn)載請(qǐng)注明本文地址:http://systransis.cn/yun/37973.html
摘要:筆者在今天的工作中,遇到了一個(gè)需求,那就是如何將字符串生成。比如,需要把字符串這是測(cè)試文件生成為該中含有文字這是測(cè)試文件。 ??筆者在今天的工作中,遇到了一個(gè)需求,那就是如何將Python字符串生成PDF。比如,需要把Python字符串‘這是測(cè)試文件’生成為PDF, 該P(yáng)DF中含有文字‘這是測(cè)試文件’。??經(jīng)過(guò)一番檢索,筆者決定采用wkhtmltopdf這個(gè)軟件,它可以將HTML轉(zhuǎn)化為...
小編寫(xiě)這篇文章的主要目的,主要是給大家介紹一下關(guān)于python代碼實(shí)現(xiàn)pdf編輯免費(fèi)pdf工具相關(guān)知識(shí)的解答。 PDF是在日常生活中使用范圍還是比較的廣泛的,很多的文檔都是PDF格式。格式穩(wěn)定是他的一個(gè)優(yōu)勢(shì),使得我們?cè)诖蛴?、分享、傳輸過(guò)程中能夠最優(yōu)的保持原有色彩和格式?! DF各種各樣的的版本是比較的多的,它在格式的穩(wěn)定性方面雖然具有很大優(yōu)勢(shì)。但是,在可編輯性方面卻為使用者引入了另外一個(gè)困...
摘要:復(fù)雜系統(tǒng)仿真的微博客虛假信息擴(kuò)散模型研究面向影子分析的社交媒體競(jìng)爭(zhēng)情報(bào)搜集面向人機(jī)協(xié)同的移動(dòng)互聯(lián)網(wǎng)政務(wù)門戶探析經(jīng)驗(yàn)證。微博客的企業(yè)競(jìng)爭(zhēng)情報(bào)搜集移動(dòng)社交媒體用戶隱私保護(hù)對(duì)策研究注意這里的提示,原先的個(gè)文件沒(méi)有被再次抽取,只有個(gè)新文件被抽取。 showImg(https://segmentfault.com/img/bVbiU7y?w=1000&h=508); 本文為你展示,如何用Pyth...
摘要:在日常的學(xué)習(xí)生活工作中,我們有時(shí)會(huì)遇到需要合并文件的需求。模塊的相關(guān)參考文檔網(wǎng)址為本文將介紹如何利用來(lái)完成文件的合并。 ??在日常的學(xué)習(xí)生活工作中,我們有時(shí)會(huì)遇到需要合并PDF文件的需求。這時(shí),我們可以利用相關(guān)的PDF軟件(如Adobe Acrobat Reader DC)來(lái)完成這個(gè)任務(wù),幸運(yùn)的是,Python也為我們提供了這方面的處理模塊PyPDF2, 借用它,我們可以利用Pytho...
閱讀 2347·2021-11-15 11:38
閱讀 3557·2021-09-22 15:16
閱讀 1200·2021-09-10 11:11
閱讀 3170·2021-09-10 10:51
閱讀 2949·2019-08-30 15:56
閱讀 2789·2019-08-30 15:44
閱讀 3194·2019-08-28 18:28
閱讀 3533·2019-08-26 13:36