puppeteer爬蟲

scola666 發(fā)布于2019-08-23 18:26 / 2458人閱讀

摘要：利用空閑時間，學(xué)習(xí)了下爬蟲，我也想爬取下網(wǎng)上的資源部分參數(shù)名稱參數(shù)類型參數(shù)說明在請求的過程中是否忽略報錯信息，默認(rèn)為是否以無頭的模式運行，也就是不顯示，默認(rèn)為可執(zhí)行文件的路徑，默認(rèn)是使用它自帶的如果你想指定一個自己的路徑，可以通過這個參數(shù)設(shè)

利用空閑時間，學(xué)習(xí)了下puppeteer爬蟲，我也想爬取下網(wǎng)上的資源

1.部分api

puppeteer.launch(options)

參數(shù)名稱	參數(shù)類型	參數(shù)說明
ignoreHTTPSErrors	boolean	在請求的過程中是否忽略 Https 報錯信息，默認(rèn)為 false
headless	boolean	是否以“無頭”的模式運行chrome，也就是不顯示UI，默認(rèn)為true
executablePath	string	可執(zhí)行文件的路徑，Puppeteer 默認(rèn)是使用它自帶的 chrome webdriver, 如果你想指定一個自己的 webdriver 路徑，可以通過這個參數(shù)設(shè)置
slowMo	number	使 Puppeteer 操作減速，單位是毫秒。如果你想看看 Puppeteer 的整個工作過程，這個參數(shù)將非常有用
args	Array(String)	傳遞給 chrome 實例的其他參數(shù)，比如你可以設(shè)置瀏覽器窗口大小具體參數(shù)
timeout	number	等待chrome實例啟動的最長時間，默認(rèn)是3000ms，如果傳入0，則不限制時間
dumpio	boolean	是否將瀏覽器錦程stdout和stderr導(dǎo)入到process.stdout和process.stderr中，默認(rèn)為false
userDataDir	string	設(shè)置用戶數(shù)據(jù)目錄，默認(rèn)linux是在~/.config目錄，window 默認(rèn)在 C:Users{USER}AppDataLocalGoogleChromeUser Data, 其中 {USER} 代表當(dāng)前登錄的用戶名
env	Object	指定對chromium可見的環(huán)境變量，默認(rèn)為process.env
devtools	boolean	是否為每個選項卡自動打開DevTools面板，這個選項只有當(dāng)headless設(shè)置為false的時候有效

browser對象api

方法名	說明
browser.close()	返回一個promise對象，用于關(guān)閉瀏覽器
browser.newPage()	返回一個promise對象，創(chuàng)建一個page實例

page對象

方法名	說明
page.goto(url[, options])	返回一個promise對象，url是目標(biāo)鏈接
page.waitForSelector()	等待某個選擇器的元素加載之后，這個元素可以是異步加載的
page.evaluate(pageFunction[,args])	返回一個可序列化的普通對象，pageFunction 表示要在頁面執(zhí)行的函數(shù)， args 表示傳入給 pageFunction 的參數(shù)

2.爬取電影網(wǎng)站

const puppeteer = require("puppeteer");

/* 爬蟲的目標(biāo)鏈接地址: 豆瓣電影 */
const url = `https://movie.douban.com/tag/#/?sort=R&range=0,10&tags=`;

const sleep = time => new Promise(resolve => {
  setTimeout(resolve, time);
});

(async () => {
  console.log("crawler start to visit the target address");

  /* dumpio 是否將瀏覽器進(jìn)程stdout和stderr導(dǎo)入到process.stdout和process.stderr中 */
  const browser = await puppeteer.launch({
    args: ["--no-sandbox"],
    dumpio: false
  });
  const page = await browser.newPage();
  await page.goto(url, {
    waitUntil: "networkidle2"
  });

  await sleep(3000);

  await page.waitForSelector(".more");

  for(let i = 0; i < 1; i++) {
    await sleep(3000);
    await page.click(".more");
  }

  const result = await page.evaluate(() => {
    let $ = window.$;
    let nodeItems = $(".list-wp a");
    let links = [];
    
    /* 獲取對應(yīng)的元素節(jié)點 */
    if(nodeItems.length >= 1) {
      nodeItems.each((index, item) => {
        let elem = $(item);
        let movieId = elem.find("div").data("id");
        let title = elem.find(".title").text();
        let rate = Number(elem.find(".rate").text());
        let poster = elem.find("img").attr("src").replace("s_ratio_poster","l_ratio_poster");

        links.push({
          movieId,
          title,
          rate,
          poster,
        })
      })
    }

    return links;
  });

  browser.close();
  console.log(result)
})();

3.爬取網(wǎng)站內(nèi)容生成pdf文件

const puppeteer = require("puppeteer");
const url = "https://cn.vuejs.org/v2/guide/";
(async () => {
    const browser = await puppeteer.launch();
    const page = await browser.newPage();
    await page.goto(url, { waitUntil: "networkidle0" });
    /* 選擇你要輸出的那個PDF文件路徑，把爬取到的內(nèi)容輸出到PDF中，必須是存在的PDF，可以是空內(nèi)容，如果不是空的內(nèi)容PDF，那么會覆蓋內(nèi)容 */
    let pdfFilePath = "./index.pdf";
    /* 根據(jù)你的配置選項，我們這里選擇A4紙的規(guī)格輸出PDF，方便打印 */
    await page.pdf({
        path: pdfFilePath,
        format: "A4",
        scale: 1,
        printBackground: true,
        landscape: false,
        displayHeaderFooter: false
    });
    browser.close();
})()

正在努力學(xué)習(xí)中，若對你的學(xué)習(xí)有幫助，留下你的印記唄（點個贊咯^_^）

往期好文推薦：

使用vue開發(fā)移動端管理后臺

實現(xiàn)單行及多行文字超出后加省略號

node之本地服務(wù)器圖片上傳

純css實現(xiàn)瀑布流（multi-column多列及flex布局）

云服務(wù)器 GPU云服務(wù)器 puppet Puppeteer puppeteer_node puppeteer關(guān)閉webrtc

文章版權(quán)歸作者所有，未經(jīng)允許請勿轉(zhuǎn)載,若此文章存在違規(guī)行為，您可以聯(lián)系管理員刪除。

轉(zhuǎn)載請注明本文地址：http://systransis.cn/yun/105214.html

發(fā)表評論

登陸后可評論

0條評論

scola666

男|高級講師

我要關(guān)注我要私信

TA的文章

tensorflow

閱讀 2689·2023-04-25 20:28
Arduino nano RF433數(shù)據(jù)收發(fā)實驗（只能實現(xiàn)單板數(shù)據(jù)收發(fā)）

閱讀 1876·2021-11-22 09:34
centos系統(tǒng)linux服務(wù)器快速CPU進(jìn)程占用及內(nèi)存資源過多的進(jìn)程

閱讀 3706·2021-09-26 10:20
虛擬主機(jī)網(wǎng)站怎么上傳文件-虛擬主機(jī)怎么上傳文件？

閱讀 1863·2021-09-22 16:05
uni-app 主干知識梳理

閱讀 3099·2021-09-09 09:32
#速搶#騰訊云：超級秒殺款，2核/4G內(nèi)存/80G SSD/8M帶寬/年付74元，國內(nèi)機(jī)房

閱讀 2533·2021-08-31 09:40
vue-cli的坑，loader重復(fù)的鍋 Invalid CSS after "...lo

閱讀 2117·2019-08-30 13:56
初學(xué)者可能不知道的vue技巧

閱讀 3330·2019-08-29 17:01

成人国产在线小视频_日韩寡妇人妻调教在线播放_色成人www永久在线观看_2018国产精品久久_亚洲欧美高清在线30p_亚洲少妇综合一区_黄色在线播放国产_亚洲另类技巧小说校园_国产主播xx日韩_a级毛片在线免费

資訊專欄INFORMATION COLUMN

上云采購季！| 2核2G4M爆款云服務(wù)器低至59元/年，更有多臺、長期優(yōu)惠，快來選購！

puppeteer爬蟲

相關(guān)文章

手把手教你如何用Crawlab構(gòu)建技術(shù)文章聚合平臺(一)

手把手教你如何用Crawlab構(gòu)建技術(shù)文章聚合平臺(一)