成人国产在线小视频_日韩寡妇人妻调教在线播放_色成人www永久在线观看_2018国产精品久久_亚洲欧美高清在线30p_亚洲少妇综合一区_黄色在线播放国产_亚洲另类技巧小说校园_国产主播xx日韩_a级毛片在线免费

資訊專欄INFORMATION COLUMN

puppeteer爬蟲

scola666 / 2458人閱讀

摘要:利用空閑時間,學(xué)習(xí)了下爬蟲,我也想爬取下網(wǎng)上的資源部分參數(shù)名稱參數(shù)類型參數(shù)說明在請求的過程中是否忽略報錯信息,默認(rèn)為是否以無頭的模式運行,也就是不顯示,默認(rèn)為可執(zhí)行文件的路徑,默認(rèn)是使用它自帶的如果你想指定一個自己的路徑,可以通過這個參數(shù)設(shè)

利用空閑時間,學(xué)習(xí)了下puppeteer爬蟲,我也想爬取下網(wǎng)上的資源
1.部分api

puppeteer.launch(options)

參數(shù)名稱 參數(shù)類型 參數(shù)說明
ignoreHTTPSErrors boolean 在請求的過程中是否忽略 Https 報錯信息,默認(rèn)為 false
headless boolean 是否以“無頭”的模式運行chrome,也就是不顯示UI,默認(rèn)為true
executablePath string 可執(zhí)行文件的路徑,Puppeteer 默認(rèn)是使用它自帶的 chrome webdriver, 如果你想指定一個自己的 webdriver 路徑,可以通過這個參數(shù)設(shè)置
slowMo number 使 Puppeteer 操作減速,單位是毫秒。如果你想看看 Puppeteer 的整個工作過程,這個參數(shù)將非常有用
args Array(String) 傳遞給 chrome 實例的其他參數(shù),比如你可以設(shè)置瀏覽器窗口大小具體參數(shù)
timeout number 等待chrome實例啟動的最長時間,默認(rèn)是3000ms,如果傳入0,則不限制時間
dumpio boolean 是否將瀏覽器錦程stdout和stderr導(dǎo)入到process.stdout和process.stderr中,默認(rèn)為false
userDataDir string 設(shè)置用戶數(shù)據(jù)目錄,默認(rèn)linux是在~/.config目錄,window 默認(rèn)在 C:Users{USER}AppDataLocalGoogleChromeUser Data, 其中 {USER} 代表當(dāng)前登錄的用戶名
env Object 指定對chromium可見的環(huán)境變量,默認(rèn)為process.env
devtools boolean 是否為每個選項卡自動打開DevTools面板,這個選項只有當(dāng)headless設(shè)置為false的時候有效

browser對象api

方法名 說明
browser.close() 返回一個promise對象,用于關(guān)閉瀏覽器
browser.newPage() 返回一個promise對象,創(chuàng)建一個page實例

page對象

方法名 說明
page.goto(url[, options]) 返回一個promise對象,url是目標(biāo)鏈接
page.waitForSelector() 等待某個選擇器的元素加載之后,這個元素可以是異步加載的
page.evaluate(pageFunction[,args]) 返回一個可序列化的普通對象,pageFunction 表示要在頁面執(zhí)行的函數(shù), args 表示傳入給 pageFunction 的參數(shù)
2.爬取電影網(wǎng)站
const puppeteer = require("puppeteer");

/* 爬蟲的目標(biāo)鏈接地址: 豆瓣電影 */
const url = `https://movie.douban.com/tag/#/?sort=R&range=0,10&tags=`;

const sleep = time => new Promise(resolve => {
  setTimeout(resolve, time);
});

(async () => {
  console.log("crawler start to visit the target address");

  /* dumpio 是否將瀏覽器進(jìn)程stdout和stderr導(dǎo)入到process.stdout和process.stderr中 */
  const browser = await puppeteer.launch({
    args: ["--no-sandbox"],
    dumpio: false
  });
  const page = await browser.newPage();
  await page.goto(url, {
    waitUntil: "networkidle2"
  });

  await sleep(3000);

  await page.waitForSelector(".more");

  for(let i = 0; i < 1; i++) {
    await sleep(3000);
    await page.click(".more");
  }

  const result = await page.evaluate(() => {
    let $ = window.$;
    let nodeItems = $(".list-wp a");
    let links = [];
    
    /* 獲取對應(yīng)的元素節(jié)點 */
    if(nodeItems.length >= 1) {
      nodeItems.each((index, item) => {
        let elem = $(item);
        let movieId = elem.find("div").data("id");
        let title = elem.find(".title").text();
        let rate = Number(elem.find(".rate").text());
        let poster = elem.find("img").attr("src").replace("s_ratio_poster","l_ratio_poster");

        links.push({
          movieId,
          title,
          rate,
          poster,
        })
      })
    }

    return links;
  });

  browser.close();
  console.log(result)
})();
3.爬取網(wǎng)站內(nèi)容生成pdf文件
const puppeteer = require("puppeteer");
const url = "https://cn.vuejs.org/v2/guide/";
(async () => {
    const browser = await puppeteer.launch();
    const page = await browser.newPage();
    await page.goto(url, { waitUntil: "networkidle0" });
    /* 選擇你要輸出的那個PDF文件路徑,把爬取到的內(nèi)容輸出到PDF中,必須是存在的PDF,可以是空內(nèi)容,如果不是空的內(nèi)容PDF,那么會覆蓋內(nèi)容 */
    let pdfFilePath = "./index.pdf";
    /* 根據(jù)你的配置選項,我們這里選擇A4紙的規(guī)格輸出PDF,方便打印 */
    await page.pdf({
        path: pdfFilePath,
        format: "A4",
        scale: 1,
        printBackground: true,
        landscape: false,
        displayHeaderFooter: false
    });
    browser.close();
})()
正在努力學(xué)習(xí)中,若對你的學(xué)習(xí)有幫助,留下你的印記唄(點個贊咯^_^)

往期好文推薦:

使用vue開發(fā)移動端管理后臺

實現(xiàn)單行及多行文字超出后加省略號

node之本地服務(wù)器圖片上傳

純css實現(xiàn)瀑布流(multi-column多列及flex布局)

文章版權(quán)歸作者所有,未經(jīng)允許請勿轉(zhuǎn)載,若此文章存在違規(guī)行為,您可以聯(lián)系管理員刪除。

轉(zhuǎn)載請注明本文地址:http://systransis.cn/yun/105214.html

相關(guān)文章

  • 手把手教你如何用Crawlab構(gòu)建技術(shù)文章聚合平臺(一)

    摘要:本文將介紹如何使用和抓取主流的技術(shù)博客文章,然后用搭建一個小型的技術(shù)文章聚合平臺。是谷歌開源的基于和的自動化測試工具,可以很方便的讓程序模擬用戶的操作,對瀏覽器進(jìn)行程序化控制。相對于,是新的開源項目,而且是谷歌開發(fā),可以使用很多新的特性。 背景 說到爬蟲,大多數(shù)程序員想到的是scrapy這樣受人歡迎的框架。scrapy的確不錯,而且有很強大的生態(tài)圈,有g(shù)erapy等優(yōu)秀的可視化界面。但...

    LinkedME2016 評論0 收藏0
  • 手把手教你如何用Crawlab構(gòu)建技術(shù)文章聚合平臺(一)

    摘要:本文將介紹如何使用和抓取主流的技術(shù)博客文章,然后用搭建一個小型的技術(shù)文章聚合平臺。是谷歌開源的基于和的自動化測試工具,可以很方便的讓程序模擬用戶的操作,對瀏覽器進(jìn)行程序化控制。相對于,是新的開源項目,而且是谷歌開發(fā),可以使用很多新的特性。 背景 說到爬蟲,大多數(shù)程序員想到的是scrapy這樣受人歡迎的框架。scrapy的確不錯,而且有很強大的生態(tài)圈,有g(shù)erapy等優(yōu)秀的可視化界面。但...

    Jeffrrey 評論0 收藏0
  • puppeteer爬蟲

    摘要:爬蟲爬蟲又稱網(wǎng)絡(luò)機(jī)器人。每天或許你都會使用搜索引擎,爬蟲便是搜索引擎重要的組成部分,爬取內(nèi)容做索引。那我萌就來探討一下網(wǎng)絡(luò)爬蟲吧。對后關(guān)于不僅僅可以用來做爬蟲,因為可以編程,無頭瀏覽器,可以用來自動化測試等等。 @(爬蟲)[puppeteer|] 爬蟲又稱網(wǎng)絡(luò)機(jī)器人。每天或許你都會使用搜索引擎,爬蟲便是搜索引擎重要的組成部分,爬取內(nèi)容做索引?,F(xiàn)如今大數(shù)據(jù),數(shù)據(jù)分析很火,那數(shù)據(jù)哪里來呢,...

    felix0913 評論0 收藏0
  • 使用Node.js爬取任意網(wǎng)頁資源并輸出高質(zhì)量PDF文件到本地~

    摘要:上面只爬取了京東首頁的圖片內(nèi)容,假設(shè)我的需求進(jìn)一步擴(kuò)大,需要爬取京東首頁中的所有標(biāo)簽對應(yīng)的跳轉(zhuǎn)網(wǎng)頁中的所有的文字內(nèi)容,最后放到一個數(shù)組中。 showImg(https://segmentfault.com/img/bVbtVeV?w=3840&h=2160); 本文適合無論是否有爬蟲以及Node.js基礎(chǔ)的朋友觀看~ 需求: 使用Node.js爬取網(wǎng)頁資源,開箱即用的配置 將爬取到的...

    seasonley 評論0 收藏0

發(fā)表評論

0條評論

最新活動
閱讀需要支付1元查看
<