數(shù)據(jù)分析遇到PDF文本，怎么用Python批量提取內(nèi)容

cloud 發(fā)布于2019-07-31 11:16 / 2309人閱讀

摘要：復(fù)雜系統(tǒng)仿真的微博客虛假信息擴散模型研究面向影子分析的社交媒體競爭情報搜集面向人機協(xié)同的移動互聯(lián)網(wǎng)政務(wù)門戶探析經(jīng)驗證。微博客的企業(yè)競爭情報搜集移動社交媒體用戶隱私保護對策研究注意這里的提示，原先的個文件沒有被再次抽取，只有個新文件被抽取。

本文為你展示，如何用Python把許多PDF文件的文本內(nèi)容批量提取出來，并且整理存儲到數(shù)據(jù)框中，以便于后續(xù)的數(shù)據(jù)分析。

問題

最近，讀者們在后臺的留言，愈發(fā)五花八門了。

寫了幾篇關(guān)于自然語言處理的文章后，一種呼聲漸強：

pdf中的文本內(nèi)容，有沒有什么方便的方法提取出來呢？

我能體會到讀者的心情。

我展示的例子中，文本數(shù)據(jù)都是直接可以讀入數(shù)據(jù)框工具做處理的。它們可能來自開放數(shù)據(jù)集合、網(wǎng)站API，或者爬蟲。

但是，有的時候，你會遇到需要處理指定格式數(shù)據(jù)的問題。

例如pdf。

許多的學術(shù)論文、研究報告，甚至是資料分享，都采用這種格式發(fā)布。

這時候，已經(jīng)掌握了諸多自然語言分析工具的你，會頗有“拔劍四顧心茫然”的感覺——明明知道如何處理其中的文本信息，但就是隔著一個格式轉(zhuǎn)換的問題，做不來。

怎么辦？

辦法自然是有的，例如專用工具、在線轉(zhuǎn)換服務(wù)網(wǎng)站，甚至還可以手動復(fù)制粘貼嘛。

但是，咱們是看重效率的，對不對？

上述辦法，有的需要在網(wǎng)上傳輸大量內(nèi)容，花費時間較多，而且可能帶來安全和隱私問題；有的需要專門花錢購買；有的干脆就不現(xiàn)實。

怎么辦？

好消息是，Python就可以幫助你高效、快速地批量提取pdf文本內(nèi)容，而且和數(shù)據(jù)整理分析工具無縫銜接，為你后續(xù)的分析處理做好基礎(chǔ)服務(wù)工作。

數(shù)據(jù)

為了更好地說明流程，我為你準備好了一個壓縮包。

里面包括本教程的代碼，以及我們要用到的數(shù)據(jù)。

請你到這個網(wǎng)址下載本教程配套的壓縮包。

下載后解壓，你會在生成的目錄（下稱“演示目錄”）里面看到以下內(nèi)容。

演示目錄里面包含：

Pipfile: pipenv 配置文件，用來準備咱們變成需要用到的依賴包。后文會講解使用方法；
pdf_extractor.py: 利用pdfminer.six編寫的輔助函數(shù)。有了它你就可以直接調(diào)用pdfminer提供的pdf文本內(nèi)容抽取功能，而不必考慮一大堆惱人的參數(shù)；
demo.ipynb: 已經(jīng)為你寫好的本教程 Python 源代碼（Jupyter Notebook格式）。
另外，演示目錄中還包括了2個文件夾。

這兩個文件夾里面，都是中文pdf文件，用來給你展示pdf內(nèi)容抽取。

pdf文件夾內(nèi)容如下：

newpdf文件夾內(nèi)容如下：

代碼

首先，我們讀入一些模塊，以進行文件操作。

import glob
import os

前文提到過，演示目錄下，有兩個文件夾，分別是pdf和newpdf。

我們指定 pdf 文件所在路徑為其中的pdf文件夾。

pdf_path = "pdf/"

我們希望獲得所有 pdf 文件的路徑。用glob，一條命令就能完成這個功能。

pdfs = glob.glob("{}/*.pdf".format(pdf_path))

看看我們獲得的 pdf 文件路徑是否正確。

pdfs
["pdf/復(fù)雜系統(tǒng)仿真的微博客虛假信息擴散模型研究.pdf",
 "pdf/面向影子分析的社交媒體競爭情報搜集.pdf",
 "pdf/面向人機協(xié)同的移動互聯(lián)網(wǎng)政務(wù)門戶探析.pdf"]

經(jīng)驗證。準確無誤。

下面我們利用 pdfminer 來從 pdf 文件中抽取內(nèi)容。我們需要從輔助 Python 文件 pdf_extractor.py 中讀入函數(shù) extract_pdf_content。

from pdf_extractor import extract_pdf_content

用這個函數(shù)，我們嘗試從 pdf 文件列表中的第一篇里，抽取內(nèi)容，并且把文本保存在 content 變量里。

content = extract_pdf_content(pdfs[0])

我們看看 content 里都有什么：

content

顯然，內(nèi)容抽取并不完美，頁眉頁腳等信息都混了進來。

不過，對于我們的許多文本分析用途來說，這無關(guān)緊要。

你會看到 content 的內(nèi)容里面有許多的 n，這是什么呢？

我們用 print 函數(shù)，來顯示 content 的內(nèi)容。

print(content)

可以清楚看到，那些 n 是換行符。

通過一個 pdf 文件的抽取測試，我們建立了信心。

下面，我們該建立辭典，批量抽取和存儲內(nèi)容了。

mydict = {}

我們遍歷 pdfs 列表，把文件名稱（不包含目錄）作為鍵值。這樣，我們可以很容易看到，哪些pdf文件已經(jīng)被抽取過了，哪些還沒有抽取。

為了讓這個過程更為清晰，我們讓Python輸出正在抽取的 pdf 文件名。

for pdf in pdfs:
    key = pdf.split("/")[-1]
    if not key in mydict:
        print("Extracting content from {} ...".format(pdf))
        mydict[key] = extract_pdf_content(pdf)

抽取過程中，你會看到這些輸出信息：

Extracting content from pdf/復(fù)雜系統(tǒng)仿真的微博客虛假信息擴散模型研究.pdf ...
Extracting content from pdf/面向影子分析的社交媒體競爭情報搜集.pdf ...
Extracting content from pdf/面向人機協(xié)同的移動互聯(lián)網(wǎng)政務(wù)門戶探析.pdf ...

看看此時字典中的鍵值都有哪些：

mydict.keys()

dict_keys(["復(fù)雜系統(tǒng)仿真的微博客虛假信息擴散模型研究.pdf", "面向影子分析的社交媒體競爭情報搜集.pdf", "面向人機協(xié)同的移動互聯(lián)網(wǎng)政務(wù)門戶探析.pdf"])

一切正常。

下面我們調(diào)用pandas，把字典變成數(shù)據(jù)框，以利于分析。

import pandas as pd

下面這條語句，就可以把字典轉(zhuǎn)換成數(shù)據(jù)框了。注意后面的reset_index()把原先字典鍵值生成的索引也轉(zhuǎn)換成了普通的列。

df = pd.DataFrame.from_dict(mydict, orient="index").reset_index()

然后我們重新命名列，以便于后續(xù)使用。

df.columns = ["path", "content"]

此時的數(shù)據(jù)框內(nèi)容如下：

df

可以看到，我們的數(shù)據(jù)框擁有了pdf文件信息和全部文本內(nèi)容。這樣你就可以使用關(guān)鍵詞抽取、情感分析、相似度計算等等諸多分析工具了。

篇幅所限，我們這里只用一個字符數(shù)量統(tǒng)計的例子來展示基本分析功能。

我們讓 Python 幫我們統(tǒng)計抽取內(nèi)容的長度。

df["length"] = df.content.apply(lambda x: len(x))

此時的數(shù)據(jù)框內(nèi)容發(fā)生以下變化：

df

多出的一列，就是 pdf 文本內(nèi)容的字符數(shù)量。

為了在 Jupyter Notebook 里面正確展示繪圖結(jié)果，我們需要使用以下語句：

%matplotlib inline

下面，我們讓 Pandas 把字符長度一列的信息用柱狀圖標示出來。為了顯示的美觀，我們設(shè)置了圖片的長寬比例，并且把對應(yīng)的pdf文件名稱以傾斜45度來展示。

如果對Python編程、網(wǎng)絡(luò)爬蟲、機器學習、數(shù)據(jù)挖掘、web開發(fā)、人工智能、面試經(jīng)驗交流。感興趣可以519970686，群內(nèi)會有不定期的發(fā)放免費的資料鏈接，這些資料都是從各個技術(shù)網(wǎng)站搜集、整理出來的，如果你有好的學習資料可以私聊發(fā)我，我會注明出處之后分享給大家。

import matplotlib.pyplot as plt
plt.figure(figsize=(14, 6))
df.set_index("path").length.plot(kind="bar")
plt.xticks(rotation=45)

可視化分析完成。

下面我們把剛才的分析流程整理成函數(shù)，以便于將來更方便地調(diào)用。

我們先整合pdf內(nèi)容提取到字典的模塊：

def get_mydict_from_pdf_path(mydict, pdf_path):
    pdfs = glob.glob("{}/*.pdf".format(pdf_path))
    for pdf in pdfs:
        key = pdf.split("/")[-1]
        if not key in mydict:
            print("Extracting content from {} ...".format(pdf))
            mydict[key] = extract_pdf_content(pdf)
    return mydict

這里輸入是已有詞典和pdf文件夾路徑。輸出為新的詞典。

你可能會納悶為何還要輸入“已有詞典”。別著急，一會兒我用實際例子展示給你看。

下面這個函數(shù)非常直白——就是把詞典轉(zhuǎn)換成數(shù)據(jù)框。

def make_df_from_mydict(mydict):
    df = pd.DataFrame.from_dict(mydict, orient="index").reset_index()
    df.columns = ["path", "content"]
    return df

最后一個函數(shù)，用于繪制統(tǒng)計出來的字符數(shù)量。

def draw_df(df):
    df["length"] = df.content.apply(lambda x: len(x))
    plt.figure(figsize=(14, 6))
    df.set_index("path").length.plot(kind="bar")
    plt.xticks(rotation=45)

函數(shù)已經(jīng)編好，下面我們來嘗試一下。

還記得演示目錄下有個子目錄，叫做newpdf對吧？

我們把其中的2個pdf文件，移動到pdf目錄下面。

這樣pdf目錄下面，就有了5個文件：

我們執(zhí)行新整理出的3個函數(shù)。

首先輸入已有的詞典（注意此時里面已有3條記錄），pdf文件夾路徑?jīng)]變化。輸出是新的詞典。

mydict = get_mydict_from_pdf_path(mydict, pdf_path)

Extracting content from pdf/微博客 Twitter 的企業(yè)競爭情報搜集.pdf ...
Extracting content from pdf/移動社交媒體用戶隱私保護對策研究.pdf ...

注意這里的提示，原先的3個pdf文件沒有被再次抽取，只有2個新pdf文件被抽取。

咱們這里一共只有5個文件，所以你直觀上可能無法感受出顯著的區(qū)別。

但是，假設(shè)你原先已經(jīng)用幾個小時，抽取了成百上千個pdf文件信息，結(jié)果你的老板又丟給你3個新的pdf文件……

如果你必須從頭抽取信息，恐怕會很崩潰吧。

這時候，使用咱們的函數(shù)，你可以在1分鐘之內(nèi)把新的文件內(nèi)容追加進去。

這差別，不小吧？

下面我們用新的詞典，構(gòu)建數(shù)據(jù)框。

df = make_df_from_mydict(mydict)

我們繪制新的數(shù)據(jù)框里，pdf抽取文本字符數(shù)量。結(jié)果如下：

draw_df(df)

小結(jié)

總結(jié)一下，本文為你介紹了以下知識點：

如何用glob批量讀取目錄下指定格式的文件路徑；
如何用pdfminer從pdf文件中抽取文本信息；
如何構(gòu)建詞典，存儲與鍵值（本文中為文件名）對應(yīng)的內(nèi)容，并且避免重復(fù)處理數(shù)據(jù)；
如何將詞典數(shù)據(jù)結(jié)構(gòu)輕松轉(zhuǎn)換為Pandas數(shù)據(jù)框，以便于后續(xù)數(shù)據(jù)分析。
如何用matplotlib和pandas自帶的繪圖函數(shù)輕松繪制柱狀統(tǒng)計圖形。

討論

你之前做的數(shù)據(jù)分析工作中，遇到過需要從pdf文件抽取文本的任務(wù)嗎？你是如何處理的？有沒有更好的工具與方法？歡迎留言，把你的經(jīng)驗和思考分享給大家，我們一起交流討論。

出處 https://blog.csdn.net/Stephen...

GPU云服務(wù)器云服務(wù)器 python文本內(nèi)容批量提取 PDF文字提取 asp提取pdf書簽

文章版權(quán)歸作者所有，未經(jīng)允許請勿轉(zhuǎn)載,若此文章存在違規(guī)行為，您可以聯(lián)系管理員刪除。

轉(zhuǎn)載請注明本文地址：http://systransis.cn/yun/44913.html

發(fā)表評論

登陸后可評論

0條評論

cloud

男|高級講師

我要關(guān)注我要私信

TA的文章

#黑五#Database Mart，美國達拉斯VPS/獨服/GPU服務(wù)器4折優(yōu)惠，月付低至$3.59

閱讀 2867·2021-11-22 11:56
【Python從入門到實戰(zhàn)】一篇文章帶你搞懂Python中的類~

閱讀 3568·2021-11-15 11:39
Python中if判斷語句

閱讀 912·2021-09-24 09:48
VoLLcloud：大促銷-香港vps大帶寬-CMI三網(wǎng)直連-全場7折-月付低至2.8刀-2G冗余-

閱讀 773·2021-08-17 10:14
慶祝新年?畫一顆圣誕樹?還是...

閱讀 1339·2019-08-30 15:55
calc

閱讀 2766·2019-08-30 15:55
【winter重學前端筆記13】瀏覽器：一個瀏覽器是如何工作的？CSS計算

閱讀 1324·2019-08-30 15:44
margin 實現(xiàn)水平居中，垂直居中原理

閱讀 2794·2019-08-30 10:59

成人国产在线小视频_日韩寡妇人妻调教在线播放_色成人www永久在线观看_2018国产精品久久_亚洲欧美高清在线30p_亚洲少妇综合一区_黄色在线播放国产_亚洲另类技巧小说校园_国产主播xx日韩_a级毛片在线免费

資訊專欄INFORMATION COLUMN

上云采購季！| 2核2G4M爆款云服務(wù)器低至59元/年，更有多臺、長期優(yōu)惠，快來選購！

數(shù)據(jù)分析遇到PDF文本，怎么用Python批量提取內(nèi)容

相關(guān)文章

**批量截取pdf文件**

爬蟲 - 收藏集 - 掘金

**批量抓取網(wǎng)頁pdf文件**

**批量抓取網(wǎng)頁pdf文件**

一步步爬取Coursera課程資源

發(fā)表評論

0條評論

cloud

男|高級講師

TA的文章

#黑五#Database Mart，美國達拉斯VPS/獨服/GPU服務(wù)器4折優(yōu)惠，月付低至$3.59

【Python從入門到實戰(zhàn)】一篇文章帶你搞懂Python中的類~

Python中if判斷語句

VoLLcloud：大促銷-香港vps大帶寬-CMI三網(wǎng)直連-全場7折-月付低至2.8刀-2G冗余-

慶祝新年?畫一顆圣誕樹?還是...

calc

【winter重學前端筆記13】瀏覽器：一個瀏覽器是如何工作的？CSS計算

margin 實現(xiàn)水平居中，垂直居中原理

最新活動

資訊專欄INFORMATION COLUMN

上云采購季！| 2核2G4M爆款云服務(wù)器低至59元/年，更有多臺、長期優(yōu)惠，快來選購！

數(shù)據(jù)分析遇到PDF文本，怎么用Python批量提取內(nèi)容

相關(guān)文章

發(fā)表評論

0條評論

男|高級講師

TA的文章

最新活動

上云采購季！| 2核2G4M爆款云服務(wù)器低至59元/年，更有多臺、長期優(yōu)惠，快來選購！