摘要:筆者在今天的工作中,遇到了一個(gè)需求,那就是如何將字符串生成。比如,需要把字符串這是測(cè)試文件生成為該中含有文字這是測(cè)試文件。
??筆者在今天的工作中,遇到了一個(gè)需求,那就是如何將Python字符串生成PDF。比如,需要把Python字符串‘這是測(cè)試文件’生成為PDF, 該P(yáng)DF中含有文字‘這是測(cè)試文件’。
??經(jīng)過(guò)一番檢索,筆者決定采用wkhtmltopdf這個(gè)軟件,它可以將HTML轉(zhuǎn)化為PDF。wkhtmltopdf的訪問(wèn)網(wǎng)址為:https://wkhtmltopdf.org/downloads.html ,讀者可根據(jù)自己的系統(tǒng)下載對(duì)應(yīng)的文件并安裝。安裝好wkhtmltopdf,我們?cè)侔惭b這個(gè)軟件的Python第三方模塊——pdfkit,安裝方式如下:
pip install pdfkit
??我們?cè)儆懻撊缦聠?wèn)題:
如何將Python字符串生成PDF;
如何生成PDF中的表格;
解決PDF生成速度慢的問(wèn)題。
如何將Python字符串生成PDF??該問(wèn)題的解決思路還是利用將Python字符串嵌入到HTML代碼中解決,注意換行需要用
標(biāo)簽,示例代碼如下:
import pdfkit # PDF中包含的文字 content = "這是一個(gè)測(cè)試文件。" + "
" + "Hello from Python!" html = "" ""%content # 轉(zhuǎn)換為PDF pdfkit.from_string(html, "./test.pdf")%s
輸出的結(jié)果如下:
Loading pages (1/6)
Counting pages (2/6)
Resolving links (4/6)
Loading headers and footers (5/6)
Printing pages (6/6)
Done
生成的test.pdf如下:
如何生成PDF中的表格??接下來(lái)我們考慮如何將csv文件轉(zhuǎn)換為PDF中的表格,思路還是利用HTML代碼。示例的iris.csv文件(部分)如下:
??將csv文件轉(zhuǎn)換為PDF中的表格的Python代碼如下:
import pdfkit # 讀取csv文件 with open("iris.csv", "r") as f: lines = [_.strip() for _ in f.readlines()] # 轉(zhuǎn)化為html中的表格樣式 td_width = 100 content = "
%s | "%(td_width, _) for _ in lines[i].split(",")])+"
??生成的PDF文件為iris.pdf,部分內(nèi)容如下:
解決PDF生成速度慢的問(wèn)題??用pdfkit生成PDF文件雖然方便,但有一個(gè)比較大的缺點(diǎn),那就是生成PDF的速度比較慢,這里我們可以做個(gè)簡(jiǎn)單的測(cè)試,比如生成100份PDF文件,里面的文字為“這是第*份測(cè)試文件!”。Python代碼如下:
import pdfkit import time start_time = time.time() for i in range(100): content = "這是第%d份測(cè)試文件!"%(i+1) html = "" "%s" % content # 轉(zhuǎn)換為PDF pdfkit.from_string(html, "./test/%s.pdf"%(i+1)) end_time = time.time() print("一共耗時(shí):%s 秒." %(end_time-start_time))
在這個(gè)程序中,生成100份PDF文件一共耗時(shí)約192秒。輸出結(jié)果如下:
...... Loading pages (1/6) Counting pages (2/6) Resolving links (4/6) Loading headers and footers (5/6) Printing pages (6/6) Done 一共耗時(shí):191.9226369857788 秒.
??如果想要加快生成的速度,我們可以使用多線程來(lái)實(shí)現(xiàn),主要使用concurrent.futures模塊,完整的Python代碼如下:
import pdfkit import time from concurrent.futures import ThreadPoolExecutor, wait, ALL_COMPLETED start_time = time.time() # 函數(shù): 生成PDF def convert_2_pdf(i): content = "這是第%d份測(cè)試文件!"%(i+1) html = "" "%s" % content # 轉(zhuǎn)換為PDF pdfkit.from_string(html, "./test/%s.pdf"%(i+1)) # 利用多線程生成PDF executor = ThreadPoolExecutor(max_workers=10) # 可以自己調(diào)整max_workers,即線程的個(gè)數(shù) # submit()的參數(shù): 第一個(gè)為函數(shù), 之后為該函數(shù)的傳入?yún)?shù),允許有多個(gè) future_tasks = [executor.submit(convert_2_pdf, i) for i in range(100)] # 等待所有的線程完成,才進(jìn)入后續(xù)的執(zhí)行 wait(future_tasks, return_when=ALL_COMPLETED) end_time = time.time() print("一共耗時(shí):%s 秒." %(end_time-start_time))
在這個(gè)程序中,生成100份PDF文件一共耗時(shí)約41秒,明顯快了很多~
注意:不妨了解下筆者的微信公眾號(hào): Python爬蟲與算法(微信號(hào)為:easy_web_scrape), 歡迎大家關(guān)注~
文章版權(quán)歸作者所有,未經(jīng)允許請(qǐng)勿轉(zhuǎn)載,若此文章存在違規(guī)行為,您可以聯(lián)系管理員刪除。
轉(zhuǎn)載請(qǐng)注明本文地址:http://systransis.cn/yun/43821.html
摘要:制作電子書準(zhǔn)備制作電子書使用的是的這個(gè)庫(kù),是的封裝包,因此在安裝這個(gè)之前要安裝安裝下,不過(guò)這里安裝的時(shí)候可能對(duì)應(yīng)的版本不同,會(huì)出現(xiàn)錯(cuò)誤,如果不行的話還請(qǐng)自己百度下,我安裝的時(shí)候是可以的下的用戶直接到官網(wǎng)下載穩(wěn)定版本,然后直接安裝即可,但是 python制作pdf電子書 準(zhǔn)備 制作電子書使用的是python的pdfkit這個(gè)庫(kù),pdfkit是 wkhtmltopdf 的Python封裝包...
摘要:復(fù)雜系統(tǒng)仿真的微博客虛假信息擴(kuò)散模型研究面向影子分析的社交媒體競(jìng)爭(zhēng)情報(bào)搜集面向人機(jī)協(xié)同的移動(dòng)互聯(lián)網(wǎng)政務(wù)門戶探析經(jīng)驗(yàn)證。微博客的企業(yè)競(jìng)爭(zhēng)情報(bào)搜集移動(dòng)社交媒體用戶隱私保護(hù)對(duì)策研究注意這里的提示,原先的個(gè)文件沒有被再次抽取,只有個(gè)新文件被抽取。 showImg(https://segmentfault.com/img/bVbiU7y?w=1000&h=508); 本文為你展示,如何用Pyth...
摘要:第二步,驗(yàn)證一下,把百度生成打開任意一個(gè)終端,運(yùn)行下面的腳本。這里雷學(xué)委直接把百度首頁(yè)保持為保持內(nèi)容為圖片如下圖所示,這個(gè)軟件不止生成文件,還能生存圖片。第三步,高級(jí)定制。高級(jí)定制參考上面的代碼。 ...
摘要:爬蟲下載二最近在學(xué)習(xí)的爬蟲,并且玩的不亦說(shuō)乎,因此寫個(gè)博客,記錄并分享一下。需下載下載以下模塊模塊模塊一源碼設(shè)置命令行參數(shù)功能下載目標(biāo)最大的線程數(shù)。方法的作用與內(nèi)置函數(shù)類似,不過(guò)函數(shù)會(huì)在多個(gè)線程中并發(fā)調(diào)用方法返回一個(gè)生成器。 Python3爬蟲下載pdf(二) 最近在學(xué)習(xí)python的爬蟲,并且玩的不亦說(shuō)乎,因此寫個(gè)博客,記錄并分享一下。 需下載下載以下模塊 bs4模塊 reques...
閱讀 25659·2021-09-29 09:41
閱讀 4819·2021-09-10 11:20
閱讀 1936·2021-09-09 09:32
閱讀 1900·2019-08-30 15:44
閱讀 3209·2019-08-29 17:13
閱讀 2819·2019-08-29 14:14
閱讀 2076·2019-08-29 14:11
閱讀 3238·2019-08-29 12:36