node爬蟲快速入門

simon_chen 發(fā)布于2019-08-22 14:00 / 664人閱讀

摘要：爬蟲初入前端，剛剛接觸，對于耳聞已久的爬蟲非常神往，所以有了這篇文章，項(xiàng)目代碼在文章末尾需求抓取天涯論壇重慶地區(qū)板塊的文章列表信息。

node爬蟲

初入前端，剛剛接觸node，對于耳聞已久的node爬蟲非常神往，所以有了這篇文章，項(xiàng)目代碼在文章末尾

需求

抓取天涯論壇重慶地區(qū)板塊的文章列表信息。

使用工具

node.js

superagent(客戶端請求代理模塊)

cheerio(為服務(wù)器特別定制的，快速、靈活、實(shí)施的jQuery核心實(shí)現(xiàn))

安裝并使用cheerio，superagent模塊

安裝

npm install superagent cheerio --save

在項(xiàng)目中引入cheerio，superagent

const superagent = require("superagent")
const cheerio = require("cheerio")

指定需要抓取的域名

const mainUrl = "http://bbs.tianya.cn"  //天涯論壇主域名
let url = "/list-45-1.shtml"    //重慶區(qū)域域名

請求數(shù)據(jù)

superagent.get(mainUrl + url).end(function (err, res) {
        // 拋錯(cuò)攔截
        if (err) {
            return
            throw Error(err)
        }
        console.log(res)
    }

分析頁面結(jié)構(gòu)

對頁面內(nèi)容進(jìn)行分析，提取對我們需要的內(nèi)容

以下圖片是頁面信息

我們需要的列表在class為mt5的div下。

整個(gè)網(wǎng)頁有多個(gè)mt5，繼續(xù)向下找。

每一欄信息在(".mt5 table tbody tr")下。

調(diào)用cheerio選取(".mt5 table tbody tr")

let $ = cheerio.load(res.text)
$(".mt5 table tbody tr").each((index, item)=>{
//這里是每一項(xiàng)的信息
})

找到了信息，下面對找到的信息進(jìn)行解析

解析數(shù)據(jù)

找到需要解析的數(shù)據(jù)，對數(shù)據(jù)進(jìn)行解析，保存我們需要的數(shù)據(jù)

        let $ = cheerio.load(res.text)
        let data = []   //存儲抓去到的數(shù)據(jù)
        $(".mt5 table tbody tr").each((index, item) => {
            let _this = $(item)
            //根據(jù)頁面判斷是否是文章
            if ($(_this.children()[0]).hasClass("td-title")) {
                //對數(shù)據(jù)進(jìn)行存儲
                let obj
                let title = $(_this.find(".td-title")).find("span").next().text()
                // let text = $(_this.find("a")[0]).text()  //另一種選擇器
                let type = $(_this.find(".td-title")).find(".face").attr("title")
                let goto = $(_this.find(".td-title")).find("span").next().attr("href")
                let author = $(_this.children()[1]).text()
                let point = $(_this.children()[2]).text()
                let time = $(_this.children()[3]).text()
                obj = {
                    title: title,
                    type: type,
                    url: mainUrl + goto,
                    author: author,
                    point: point,
                    time: time
                }
                if (obj.title != "") {
                    //判斷如果有內(nèi)容，則推送到data中
                    data.push(obj)
                }
            }
        })

存儲數(shù)據(jù)到本地

此時(shí)需要把data中保存的數(shù)據(jù)存到想要保存的文件中需要用到node的fs模塊

1.引入fs模塊

const fs = require("fs")

2.存儲數(shù)據(jù)到本地

在根目錄下創(chuàng)建data文件夾

    fs.writeFile(__dirname + "/data/articleLists.json", JSON.stringify({
                status: 0,
                data: data
            }), function (err) {
                if (err) {
                    console.log(err)
                } else {
                  console.log("寫入文章列表完成")
                }
            })

現(xiàn)在爬蟲會把爬到的數(shù)據(jù)存儲到本地了
ok，到這里我們的爬蟲已經(jīng)完成了，接下來我們需要對它進(jìn)行優(yōu)化

讓爬蟲更聰明

現(xiàn)在我們的爬蟲只能爬取當(dāng)前頁的信息，我們來改一下，讓它也能翻頁

分析翻頁按鈕，天涯論壇的列表也的下一頁按鈕中有一個(gè)a標(biāo)簽，里邊的url加上之前我們記錄的mainUrl就是下一頁的標(biāo)簽。所以，在爬蟲爬取完本頁的數(shù)據(jù)后，讓爬蟲向下一頁的鏈接發(fā)一個(gè)新的請求就可以繼續(xù)爬去了。

//單次讀取后，找到下一頁的鏈接，繼續(xù)抓取下一頁的數(shù)據(jù)
        let nextPage = $(".mt5").next().find(".short-pages-2 .links")
        nextPage.children().each((index, item) => {
            if ($(item).text() === "下一頁") {
                let url = $(item).attr("href")
                getData(url)    //剛才我們請求數(shù)據(jù)的方法，命名為這個(gè)函數(shù)
            }
        })

現(xiàn)在，爬蟲讀取完當(dāng)前頁數(shù)據(jù)后就會繼續(xù)爬取下一頁的數(shù)據(jù)。

完成代碼

最后我還增加了一個(gè)頁碼，每一頁數(shù)據(jù)，多帶帶進(jìn)行記錄。下面是完整的代碼

const superagent = require("superagent")
const cheerio = require("cheerio")
const fs = require("fs")

const mainUrl = "http://bbs.tianya.cn"  //天涯論壇主域名
let url = "/list-45-1.shtml"    //重慶區(qū)域域名

let index = 1   //記錄頁碼數(shù)
//發(fā)送請求獲取頁面資源方法
let getData = (url) => {
    // 使用superagent請求頁面數(shù)據(jù)
    superagent.get(mainUrl + url).end(function (err, res) {
        // 拋錯(cuò)攔截
        if (err) {
            return
            throw Error(err)
        }
        // 請求數(shù)據(jù)后使用cheerio解析數(shù)據(jù)
        let $ = cheerio.load(res.text)
        let data = []   //存儲抓去到的數(shù)據(jù)
        $(".mt5 table tbody tr").each((index, item) => {
            let _this = $(item)
            //根據(jù)頁面判斷是否是文章
            if ($(_this.children()[0]).hasClass("td-title")) {
                //對數(shù)據(jù)進(jìn)行存儲
                let obj
                let title = $(_this.find(".td-title")).find("span").next().text()
                // let text = $(_this.find("a")[0]).text()  //另一種選擇器
                let type = $(_this.find(".td-title")).find(".face").attr("title")
                let goto = $(_this.find(".td-title")).find("span").next().attr("href")
                let author = $(_this.children()[1]).text()
                let point = $(_this.children()[2]).text()
                let time = $(_this.children()[3]).text()
                obj = {
                    title: title,
                    type: type,
                    url: mainUrl + goto,
                    author: author,
                    point: point,
                    time: time
                }
                if (obj.title != "") {
                    //判斷如果有內(nèi)容，則推送到data中
                    data.push(obj)
                }
            }
        })
        if (data.length > 0) {  //判斷data中是否有內(nèi)容
            //使用fs模塊對data中的數(shù)據(jù)進(jìn)行儲存，也可以使用數(shù)據(jù)庫進(jìn)行操作
            fs.writeFile(__dirname + "/data/articleLists" + index + ".json", JSON.stringify({
                status: 0,
                data: data
            }), function (err) {
                if (err) {
                    console.log(err)
                } else {
                    console.log("寫入文章列表完成, 當(dāng)前頁碼：", index)
                    index++
                }
            })
        }
        //單次讀取后，找到下一頁的鏈接，繼續(xù)抓取下一頁的數(shù)據(jù)
        let nextPage = $(".mt5").next().find(".short-pages-2 .links")
        nextPage.children().each((index, item) => {
            if ($(item).text() === "下一頁") {
                let url = $(item).attr("href")
                getData(url)
            }
        })
    })
}
//初次執(zhí)行數(shù)據(jù)抓取
getData(url)

好了本次node爬蟲快速入門文章到這里就結(jié)束了，但是這個(gè)爬蟲還有很多地方需要完善，以后我會為大家?guī)砀敿?xì)的爬蟲教程

文章版權(quán)歸作者所有，未經(jīng)允許請勿轉(zhuǎn)載,若此文章存在違規(guī)行為，您可以聯(lián)系管理員刪除。

轉(zhuǎn)載請注明本文地址：http://systransis.cn/yun/92761.html

發(fā)表評論

登陸后可評論

0條評論

simon_chen

男|高級講師

我要關(guān)注我要私信

TA的文章

一文看懂 MySQL 高性能優(yōu)化技巧實(shí)踐

閱讀 3473·2021-09-08 09:36
vue項(xiàng)目搭建以及全家桶的使用詳細(xì)教程

閱讀 2575·2019-08-30 15:54
[CSS]《CSS揭秘》第六章——用戶體驗(yàn)

閱讀 2364·2019-08-30 15:54
前端面試每日3+1——第107天

閱讀 1774·2019-08-30 15:44
前端該如何準(zhǔn)備數(shù)據(jù)結(jié)構(gòu)和算法？

閱讀 2396·2019-08-26 14:04
JavaScript中的數(shù)組

閱讀 2448·2019-08-26 14:01
Vue+Webpack項(xiàng)目從 60s 到 17s 的打包優(yōu)化方法

閱讀 2884·2019-08-26 13:58
黃金搭檔 -- JS 裝飾器（Decorator）與Node.js路由

閱讀 1341·2019-08-26 13:47

成人国产在线小视频_日韩寡妇人妻调教在线播放_色成人www永久在线观看_2018国产精品久久_亚洲欧美高清在线30p_亚洲少妇综合一区_黄色在线播放国产_亚洲另类技巧小说校园_国产主播xx日韩_a级毛片在线免费

資訊專欄INFORMATION COLUMN

上云采購季！| 2核2G4M爆款云服務(wù)器低至59元/年，更有多臺、長期優(yōu)惠，快來選購！

node爬蟲快速入門

相關(guān)文章

快速上手——我用scrapy寫爬蟲（一）

Neo4j入門之中國電影票房排行淺析

前端開發(fā)收集 - 收藏集 - 掘金

scrapy入門

發(fā)表評論

0條評論

simon_chen

男|高級講師

TA的文章

一文看懂 MySQL 高性能優(yōu)化技巧實(shí)踐

vue項(xiàng)目搭建以及全家桶的使用詳細(xì)教程

[CSS]《CSS揭秘》第六章——用戶體驗(yàn)

前端面試每日3+1——第107天

前端該如何準(zhǔn)備數(shù)據(jù)結(jié)構(gòu)和算法？

JavaScript中的數(shù)組

Vue+Webpack項(xiàng)目從 60s 到 17s 的打包優(yōu)化方法

黃金搭檔 -- JS 裝飾器（Decorator）與Node.js路由

最新活動(dòng)

資訊專欄INFORMATION COLUMN

上云采購季！| 2核2G4M爆款云服務(wù)器低至59元/年，更有多臺、長期優(yōu)惠，快來選購！

node爬蟲快速入門

相關(guān)文章

發(fā)表評論

0條評論

男|高級講師

TA的文章

最新活動(dòng)

上云采購季！| 2核2G4M爆款云服務(wù)器低至59元/年，更有多臺、長期優(yōu)惠，快來選購！