爬取html生成pdf

light 發(fā)布于2019-08-23 14:33 / 2441人閱讀

摘要：首先看了這篇文章前端使用爬蟲生成小書并合并，發(fā)現(xiàn)最后的沒有書簽，很難受，所以主要在此基礎(chǔ)上加了加書簽的功能。

首先看了這篇文章前端使用puppeteer 爬蟲生成《React.js 小書》PDF并合并，發(fā)現(xiàn)最后的pdf沒有書簽，很難受，所以主要在此基礎(chǔ)上加了加書簽的功能。

爬去的示例網(wǎng)站為React.js 小書，僅做學(xué)習(xí)交流

針對網(wǎng)頁生成pdf

使用puppeteer爬取網(wǎng)頁并生成pdf

puppeteer中文文檔

const puppeteer = require("puppeteer");

(async () => {
  const browser = await puppeteer.launch();
  const page = await browser.newPage();
  await page.goto("https://news.ycombinator.com", {waitUntil: "networkidle2"});
  await page.pdf({path: "hn.pdf", format: "A4"});

  await browser.close();
})();

合成pdf

pdf-merge：合并pdf

依賴于pdftk

如何給pdf加上書簽

pdftk：一個處理pdf的工具

安裝后將bin目錄添加到環(huán)境變量

利用update_info_utf8給pdf增加書簽：

pdftk "d:OpenSourceMygenpfdforrsbReact 小書(無書簽).pdf" update_info_utf8 "d:OpenSourceMygenpfdforrsbookmarks.txt" output "d:OpenSourceMygenpfdforrsbReact 小書.pdf"

書簽是什么

也就是bookmarks.txt

書簽格式:

BookmarkBegin
BookmarkTitle: PDF Reference (Version 1.5)
BookmarkLevel: 1
BookmarkPageNumber: 1
BookmarkBegin
BookmarkTitle: Contents
BookmarkLevel: 2
BookmarkPageNumber: 3

確定書簽頁碼

pdfjs-dist：獲取單個pdf頁數(shù)，用于bookmarks.txt中指定頁碼

生成書簽

const pageArr = result.map(c => c.numPages);
let txt = ""
for (let index = 0; index < pageArr.length; index++) {
    let temp = `BookmarkBegin
BookmarkTitle: ${titleArr[index]}
BookmarkLevel: 1
BookmarkPageNumber: ${pageIndex}
`
    txt += temp
    pageIndex += pageArr[index]
}
fs.writeFileSync("bookmarks.txt", txt);

加上書簽

參考pdf-merge源碼，增加runshell.js用于在node中執(zhí)行pdftk的命令

runshell.js如下：

"use strict";
const child = require("child_process");
const Promise = require("bluebird");
const exec = Promise.promisify(child.exec);

module.exports = (scripts) => new Promise((resolve, reject) => {
    exec(scripts)
        .then(resolve)
        .catch(reject);
});

執(zhí)行pdftk update_info_utf8

const nobkname = "React 小書(無書簽).pdf"
const hasbkname = "React 小書.pdf"
mergepdf(nobkname).then(buffer => {
    console.log("starting add bookmarks!")
    runshell(`pdftk "${__dirname}/${nobkname}" update_info_utf8 "${__dirname}/bookmarks.txt" output "${__dirname}/${hasbkname}"`).then(() => {
        console.log("completed add bookmarks!")
        fs.unlinkSync(`${__dirname}/${nobkname}`);
        fs.unlinkSync(`${__dirname}/bookmarks.txt`);
        console.log("all completed!")
    })
})

文件路徑需要用雙引號

源碼：genpfdforrsb

問題

合并后的pdf頁碼不是連續(xù)的，還是單個pdf的頁碼

云服務(wù)器 GPU云服務(wù)器 html5生成pdf pdf生成生成pdf 生成PDF報表

文章版權(quán)歸作者所有，未經(jīng)允許請勿轉(zhuǎn)載,若此文章存在違規(guī)行為，您可以聯(lián)系管理員刪除。

轉(zhuǎn)載請注明本文地址：http://systransis.cn/yun/100781.html

發(fā)表評論

登陸后可評論

0條評論

light

男|高級講師

我要關(guān)注我要私信

TA的文章

[Python]題集②

閱讀 1299·2021-11-17 09:33
外貿(mào)服務(wù)器建站怎么樣?幾種外貿(mào)自建站服務(wù)器的選擇

閱讀 1786·2021-09-09 11:53
plc和單片機哪個更有前途？為什么本科生都不搞plc？

閱讀 3277·2021-09-04 16:45
AHJCDN：免備案CDN，無視DDOS/CC攻擊的CDN，香港/美國GIA高速節(jié)點，提供免費套餐

閱讀 1453·2021-08-17 10:12
前端面試CSS

閱讀 2442·2019-08-30 15:55
Vue全局API總結(jié)

閱讀 1800·2019-08-30 15:53
純css實現(xiàn)下拉菜單

閱讀 2436·2019-08-30 15:52
CSS - 實現(xiàn)垂直居中的幾種方式

閱讀 2592·2019-08-29 18:41

成人国产在线小视频_日韩寡妇人妻调教在线播放_色成人www永久在线观看_2018国产精品久久_亚洲欧美高清在线30p_亚洲少妇综合一区_黄色在线播放国产_亚洲另类技巧小说校园_国产主播xx日韩_a级毛片在线免费

資訊專欄INFORMATION COLUMN

上云采購季！| 2核2G4M爆款云服務(wù)器低至59元/年，更有多臺、長期優(yōu)惠，快來選購！

爬取html生成pdf

相關(guān)文章

Puppeteer初探--爬取并生成《ES6標(biāo)準(zhǔn)入門》PDF

**使用Node.js爬取任意網(wǎng)頁資源并輸出高質(zhì)量PDF文件到本地~**

**使用Node.js爬取任意網(wǎng)頁資源并輸出高質(zhì)量PDF文件到本地~**

**使用Node.js爬取任意網(wǎng)頁資源并輸出高質(zhì)量PDF文件到本地~**

發(fā)表評論

0條評論

light

男|高級講師

TA的文章

[Python]題集②

外貿(mào)服務(wù)器建站怎么樣?幾種外貿(mào)自建站服務(wù)器的選擇

plc和單片機哪個更有前途？為什么本科生都不搞plc？

AHJCDN：免備案CDN，無視DDOS/CC攻擊的CDN，香港/美國GIA高速節(jié)點，提供免費套餐

前端面試CSS

Vue全局API總結(jié)

純css實現(xiàn)下拉菜單

CSS - 實現(xiàn)垂直居中的幾種方式

最新活動

資訊專欄INFORMATION COLUMN

上云采購季！| 2核2G4M爆款云服務(wù)器低至59元/年，更有多臺、長期優(yōu)惠，快來選購！

爬取html生成pdf

相關(guān)文章

發(fā)表評論

0條評論

男|高級講師

TA的文章

最新活動

上云采購季！| 2核2G4M爆款云服務(wù)器低至59元/年，更有多臺、長期優(yōu)惠，快來選購！