摘要:利用制作簡單的網(wǎng)頁爬蟲目標(biāo)完成對網(wǎng)站的標(biāo)題信息獲取將獲取到的信息輸出在一個新文件工具,使用下載的使用方法和的使用方法基本一致如果熟練使用,那么將會很快上手代碼部分介紹獲取頁面的列表標(biāo)題,將獲取到的標(biāo)題列表編號,最終輸出到文件里獲取網(wǎng)頁信息錯
利用cheerio制作簡單的網(wǎng)頁爬蟲 1. 目標(biāo)
完成對網(wǎng)站的標(biāo)題信息獲取
將獲取到的信息輸出在一個新文件
工具: cheerio,使用npm下載npm install cheerio
cheerio的API使用方法和jQuery的使用方法基本一致
如果熟練使用jQuery,那么cheerio將會很快上手
2. 代碼部分介紹: 獲取segment fault頁面的列表標(biāo)題,將獲取到的標(biāo)題列表編號,最終輸出到pageTitle.txt文件里
const https = require("https"); const fs = require("fs"); const cheerio = require("cheerio"); const url = "https://segmentfault.com/"; https.get(url, (res) => { let html = ""; res.on("data", (data) => { html += data; }); res.on("end", () => { getPageTitle(html); }); }).on("error", () => { console.log("獲取網(wǎng)頁信息錯誤"); }); function getPageTitle(html) { const $ = cheerio.load(html); let chapters = $(".news__item-title"); let data = []; let index = 0; let fileName = "pageTitle.txt"; for (let i = 0; i < chapters.length; i++) { let chapterTitle = $(chapters[i]).find("a").text().trim(); index++; data.push(` ${index}, ${chapterTitle}`); } fs.writeFile(fileName, data, "utf8", (err) => { if (err) { console.log("fs文件系統(tǒng)創(chuàng)建新文件失敗", err); } console.log(`已成功將獲取到的標(biāo)題放入新文件${fileName}文件中`) }) }
文章版權(quán)歸作者所有,未經(jīng)允許請勿轉(zhuǎn)載,若此文章存在違規(guī)行為,您可以聯(lián)系管理員刪除。
轉(zhuǎn)載請注明本文地址:http://systransis.cn/yun/93019.html
摘要:域套接字使用或指定請求方法的字符串。請求路徑包含非法字符時拋出異常。保持資源池周圍的套接字在未來被用于其它請求。默認(rèn)值為當(dāng)使用的時候,通過正在保持活動的套接字發(fā)送包的頻繁程度。 文章來源:小青年原創(chuàng)發(fā)布時間:2016-09-29關(guān)鍵詞:JavaScript,nodejs,http,url ,Query String,爬蟲轉(zhuǎn)載需標(biāo)注本文原始地址: http://zhaomenghuan....
摘要:爬蟲介紹二爬蟲的分類通用網(wǎng)絡(luò)爬蟲全網(wǎng)爬蟲爬行對象從一些種子擴(kuò)充到整個,主要為門戶站點(diǎn)搜索引擎和大型服務(wù)提供商采集數(shù)據(jù)。 分分鐘教你用node.js寫個爬蟲 寫在前面 十分感謝大家的點(diǎn)贊和關(guān)注。其實(shí),這是我第一次在segmentfault上寫文章。因?yàn)槲乙彩乔岸螘r間偶然之間才開始了解和學(xué)習(xí)爬蟲,而且學(xué)習(xí)node的時間也不是很長。雖然用node做過一些后端的項(xiàng)目,但其實(shí)在node和爬蟲方面...
摘要:為什么選擇利用來寫爬蟲呢就是因?yàn)檫@個庫,全兼容語法,熟悉的話用起來真真是爽依賴選擇版的封裝了一個服務(wù)器和一個簡易的客戶端解決爬取網(wǎng)頁出現(xiàn)亂碼初步實(shí)現(xiàn)既然是要爬取網(wǎng)站內(nèi)容,那我們就應(yīng)該先去看看網(wǎng)站的基本構(gòu)成選取的是電影天堂作為目標(biāo)網(wǎng)站,想要 為什么選擇利用node來寫爬蟲呢?就是因?yàn)閏heerio這個庫,全兼容jQuery語法,熟悉的話用起來真真是爽 依賴選擇 cheerio: Nod...
摘要:智聯(lián)其實(shí)一共寫了兩次,有興趣的可以在源碼看看,第一版的是回調(diào)版,只能一次一頁的爬取。 寫在前面的話, .......還是不寫了,直接上效果圖。附上源碼地址 github.lonhon showImg(https://segmentfault.com/img/bVUM3F?w=714&h=543);showImg(https://segmentfault.com/img/bVUM...
摘要:前言很多程序猿在最開始學(xué)習(xí)開發(fā)的時候應(yīng)該都有一個想要自己開發(fā)一個爬蟲的想法至少我是有的。其實(shí)弄懂了爬蟲的原理,再回過頭去看,發(fā)現(xiàn)開發(fā)一個簡單的爬蟲來說還是很容易的。 前言 很多程序猿在最開始學(xué)習(xí)開發(fā)的時候應(yīng)該都有一個想要自己開發(fā)一個爬蟲的想法(至少我是有的)。所以國內(nèi)網(wǎng)絡(luò)上也是爬蟲盛行!學(xué)了node.js之后發(fā)現(xiàn)比較適合寫爬蟲,不過一直沒有動手去寫,正好這段時間比較閑,就寫個爬蟲玩下。...
閱讀 2798·2023-04-26 01:47
閱讀 3603·2023-04-25 23:45
閱讀 2487·2021-10-13 09:39
閱讀 621·2021-10-09 09:44
閱讀 1813·2021-09-22 15:59
閱讀 2793·2021-09-13 10:33
閱讀 1738·2021-09-03 10:30
閱讀 670·2019-08-30 15:53