成人国产在线小视频_日韩寡妇人妻调教在线播放_色成人www永久在线观看_2018国产精品久久_亚洲欧美高清在线30p_亚洲少妇综合一区_黄色在线播放国产_亚洲另类技巧小说校园_国产主播xx日韩_a级毛片在线免费

資訊專欄INFORMATION COLUMN

Python之將Python字符串生成PDF

Freelander / 1340人閱讀

摘要:筆者在今天的工作中,遇到了一個(gè)需求,那就是如何將字符串生成。比如,需要把字符串這是測(cè)試文件生成為該中含有文字這是測(cè)試文件。

??筆者在今天的工作中,遇到了一個(gè)需求,那就是如何將Python字符串生成PDF。比如,需要把Python字符串‘這是測(cè)試文件’生成為PDF, 該P(yáng)DF中含有文字‘這是測(cè)試文件’。
??經(jīng)過(guò)一番檢索,筆者決定采用wkhtmltopdf這個(gè)軟件,它可以將HTML轉(zhuǎn)化為PDF。wkhtmltopdf的訪問(wèn)網(wǎng)址為:https://wkhtmltopdf.org/downloads.html ,讀者可根據(jù)自己的系統(tǒng)下載對(duì)應(yīng)的文件并安裝。安裝好wkhtmltopdf,我們?cè)侔惭b這個(gè)軟件的Python第三方模塊——pdfkit,安裝方式如下:

pip install pdfkit

??我們?cè)儆懻撊缦聠?wèn)題:

如何將Python字符串生成PDF;

如何生成PDF中的表格;

解決PDF生成速度慢的問(wèn)題。

如何將Python字符串生成PDF

??該問(wèn)題的解決思路還是利用將Python字符串嵌入到HTML代碼中解決,注意換行需要用
標(biāo)簽,示例代碼如下:

import pdfkit

# PDF中包含的文字
content = "這是一個(gè)測(cè)試文件。" + "
" + "Hello from Python!" html = "" "

%s

"%content # 轉(zhuǎn)換為PDF pdfkit.from_string(html, "./test.pdf")

輸出的結(jié)果如下:

Loading pages (1/6)
Counting pages (2/6)
Resolving links (4/6)
Loading headers and footers (5/6)
Printing pages (6/6)
Done

生成的test.pdf如下:

如何生成PDF中的表格

??接下來(lái)我們考慮如何將csv文件轉(zhuǎn)換為PDF中的表格,思路還是利用HTML代碼。示例的iris.csv文件(部分)如下:

??將csv文件轉(zhuǎn)換為PDF中的表格的Python代碼如下:

import pdfkit

# 讀取csv文件
with open("iris.csv", "r") as f:
    lines = [_.strip() for _ in f.readlines()]

# 轉(zhuǎn)化為html中的表格樣式
td_width = 100
content = "" % (td_width*len(lines[0].split(",")))

for i in range(len(lines)):
    tr = ""+"".join([""%(td_width, _) for _ in lines[i].split(",")])+""
    content += tr

content += "
%s
" html = "" "
%s
" % content # 轉(zhuǎn)換為PDF pdfkit.from_string(html, "./iris.pdf")

??生成的PDF文件為iris.pdf,部分內(nèi)容如下:

解決PDF生成速度慢的問(wèn)題

??用pdfkit生成PDF文件雖然方便,但有一個(gè)比較大的缺點(diǎn),那就是生成PDF的速度比較慢,這里我們可以做個(gè)簡(jiǎn)單的測(cè)試,比如生成100份PDF文件,里面的文字為“這是第*份測(cè)試文件!”。Python代碼如下:

import pdfkit
import time

start_time = time.time()

for i in range(100):
    content = "這是第%d份測(cè)試文件!"%(i+1)
    html = "" 
           "
%s
" % content # 轉(zhuǎn)換為PDF pdfkit.from_string(html, "./test/%s.pdf"%(i+1)) end_time = time.time() print("一共耗時(shí):%s 秒." %(end_time-start_time))

在這個(gè)程序中,生成100份PDF文件一共耗時(shí)約192秒。輸出結(jié)果如下:

......
Loading pages (1/6)
Counting pages (2/6)                                               
Resolving links (4/6)                                                       
Loading headers and footers (5/6)                                           
Printing pages (6/6)
Done                                                                      
一共耗時(shí):191.9226369857788 秒.

??如果想要加快生成的速度,我們可以使用多線程來(lái)實(shí)現(xiàn),主要使用concurrent.futures模塊,完整的Python代碼如下:

import pdfkit
import time
from concurrent.futures import ThreadPoolExecutor, wait, ALL_COMPLETED

start_time = time.time()

# 函數(shù): 生成PDF
def convert_2_pdf(i):
    content = "這是第%d份測(cè)試文件!"%(i+1)
    html = "" 
           "
%s
" % content # 轉(zhuǎn)換為PDF pdfkit.from_string(html, "./test/%s.pdf"%(i+1)) # 利用多線程生成PDF executor = ThreadPoolExecutor(max_workers=10) # 可以自己調(diào)整max_workers,即線程的個(gè)數(shù) # submit()的參數(shù): 第一個(gè)為函數(shù), 之后為該函數(shù)的傳入?yún)?shù),允許有多個(gè) future_tasks = [executor.submit(convert_2_pdf, i) for i in range(100)] # 等待所有的線程完成,才進(jìn)入后續(xù)的執(zhí)行 wait(future_tasks, return_when=ALL_COMPLETED) end_time = time.time() print("一共耗時(shí):%s 秒." %(end_time-start_time))

在這個(gè)程序中,生成100份PDF文件一共耗時(shí)約41秒,明顯快了很多~

注意:不妨了解下筆者的微信公眾號(hào): Python爬蟲與算法(微信號(hào)為:easy_web_scrape), 歡迎大家關(guān)注~

文章版權(quán)歸作者所有,未經(jīng)允許請(qǐng)勿轉(zhuǎn)載,若此文章存在違規(guī)行為,您可以聯(lián)系管理員刪除。

轉(zhuǎn)載請(qǐng)注明本文地址:http://systransis.cn/yun/43821.html

相關(guān)文章

  • python制作pdf電子書

    摘要:制作電子書準(zhǔn)備制作電子書使用的是的這個(gè)庫(kù),是的封裝包,因此在安裝這個(gè)之前要安裝安裝下,不過(guò)這里安裝的時(shí)候可能對(duì)應(yīng)的版本不同,會(huì)出現(xiàn)錯(cuò)誤,如果不行的話還請(qǐng)自己百度下,我安裝的時(shí)候是可以的下的用戶直接到官網(wǎng)下載穩(wěn)定版本,然后直接安裝即可,但是 python制作pdf電子書 準(zhǔn)備 制作電子書使用的是python的pdfkit這個(gè)庫(kù),pdfkit是 wkhtmltopdf 的Python封裝包...

    aisuhua 評(píng)論0 收藏0
  • 數(shù)據(jù)分析遇到PDF文本,怎么用Python批量提取內(nèi)容

    摘要:復(fù)雜系統(tǒng)仿真的微博客虛假信息擴(kuò)散模型研究面向影子分析的社交媒體競(jìng)爭(zhēng)情報(bào)搜集面向人機(jī)協(xié)同的移動(dòng)互聯(lián)網(wǎng)政務(wù)門戶探析經(jīng)驗(yàn)證。微博客的企業(yè)競(jìng)爭(zhēng)情報(bào)搜集移動(dòng)社交媒體用戶隱私保護(hù)對(duì)策研究注意這里的提示,原先的個(gè)文件沒有被再次抽取,只有個(gè)新文件被抽取。 showImg(https://segmentfault.com/img/bVbiU7y?w=1000&h=508); 本文為你展示,如何用Pyth...

    cloud 評(píng)論0 收藏0
  • 強(qiáng)烈推薦這款神器,把網(wǎng)站轉(zhuǎn)pdf還能編程高級(jí)定制!【建議收藏】

    摘要:第二步,驗(yàn)證一下,把百度生成打開任意一個(gè)終端,運(yùn)行下面的腳本。這里雷學(xué)委直接把百度首頁(yè)保持為保持內(nèi)容為圖片如下圖所示,這個(gè)軟件不止生成文件,還能生存圖片。第三步,高級(jí)定制。高級(jí)定制參考上面的代碼。 ...

    UsherChen 評(píng)論0 收藏0
  • Python3爬蟲下載pdf(二)

    摘要:爬蟲下載二最近在學(xué)習(xí)的爬蟲,并且玩的不亦說(shuō)乎,因此寫個(gè)博客,記錄并分享一下。需下載下載以下模塊模塊模塊一源碼設(shè)置命令行參數(shù)功能下載目標(biāo)最大的線程數(shù)。方法的作用與內(nèi)置函數(shù)類似,不過(guò)函數(shù)會(huì)在多個(gè)線程中并發(fā)調(diào)用方法返回一個(gè)生成器。 Python3爬蟲下載pdf(二) 最近在學(xué)習(xí)python的爬蟲,并且玩的不亦說(shuō)乎,因此寫個(gè)博客,記錄并分享一下。 需下載下載以下模塊 bs4模塊 reques...

    LancerComet 評(píng)論0 收藏0

發(fā)表評(píng)論

0條評(píng)論

最新活動(dòng)
閱讀需要支付1元查看
<