簡單的node爬蟲存入excel數(shù)據(jù)分析

Mike617 發(fā)布于2019-08-26 10:18 / 1367人閱讀

摘要：入門級的爬蟲地址思否社區(qū)文章太多哪個是我想要的對比點贊數(shù)對比標(biāo)題不用害怕，自己動手用來實現(xiàn)爬蟲，麻麻再也不用擔(dān)心我學(xué)習(xí)選擇困難癥啦核心代碼寫入成功核心的代碼僅僅只有行哦配置代碼定義爬蟲的頁面定義存放的路徑定義元素范圍定義數(shù)據(jù)屬性具體元

入門級的node爬蟲

github地址：https://github.com/lll618xxx/...

思否社區(qū)文章太多？哪個是我想要的？對比點贊數(shù)or對比標(biāo)題
不用害怕，自己動手用node來實現(xiàn)爬蟲，麻麻再也不用擔(dān)心我學(xué)習(xí)選擇困難癥啦！

核心代碼

const superagent = require("superagent")
const cheerio = require("cheerio")
const xlsx = require("node-xlsx")
const fs = require("fs")
const options = require("./options")

superagent.get(options.url)
    .then(res => {
        const bufferdata = [{
            name: "sheet1",
            data: [options.attr.map((item, index, arr) => {
                return arr[index][2]
            })]
        }]
       
        const $ = cheerio.load(res.text);
        
        $(options.ele).each((index, item) => {
            let arr = []
            options.attr.forEach((v, i, a) => {
                arr.push(a[i][1] ? $(item).find(a[i][0]).attr(a[i][1]) : $(item).find(a[i][0]).text())
            })
            bufferdata[0].data.push(arr)
        })
       
        fs.writeFile(options.excelPath, xlsx.build(bufferdata), (err) =>{
            if (err) throw err;
            console.log("寫入Excel成功");
        })
    })
    .catch(err => {
        console.log(err)
    });

核心的代碼僅僅只有36行哦！

配置代碼

const path = require("path")

// 定義爬蟲的頁面
const url = "https://segmentfault.com/hottest/monthly"
// 定義excel存放的路徑
const excelPath = path.join(__dirname, "result.xlsx")
// 定義元素范圍
const ele =  "div.wrapper div.news-list div.news__item-info" 
// 定義數(shù)據(jù)屬性 ["具體元素"， "屬性", "別名"]
const attr = [
    ["a", "href", "鏈接"],
    ["span.votes-num", "", "點贊數(shù)"],
    ["h4.news__item-title", "", "標(biāo)題名字"],
    ["span.author a", "", "作者名字"],
]

安裝依賴

npm i

運行項目

cd node-reptile-simple && node index.js

配置項(options.js)

url 定義爬蟲的頁面
excelPath 定義excel存放的路徑
ele 定義元素范圍
attr 定義數(shù)據(jù)屬性 ["具體元素"， "屬性", "別名"]

截圖

可以去github查看更完整的內(nèi)容
爬的不僅僅是思否，只有你想不到的，沒有我做不到的！

GPU云服務(wù)器云服務(wù)器簡單的爬蟲簡單的爬蟲程序最簡單的爬蟲 python簡單的爬蟲

文章版權(quán)歸作者所有，未經(jīng)允許請勿轉(zhuǎn)載,若此文章存在違規(guī)行為，您可以聯(lián)系管理員刪除。

轉(zhuǎn)載請注明本文地址：http://systransis.cn/yun/105933.html

發(fā)表評論

登陸后可評論

0條評論

Mike617

男|高級講師

我要關(guān)注我要私信

TA的文章

阿里云企業(yè)和個人賬號區(qū)別是什么?阿里云企業(yè)認證和個人實名認證區(qū)別

閱讀 2524·2021-11-19 09:59
上百道最新前端面試題

閱讀 2053·2019-08-30 15:55
前端小白進階筆記之多級菜單分享

閱讀 962·2019-08-29 13:30
簡單的node爬蟲存入excel數(shù)據(jù)分析

閱讀 1368·2019-08-26 10:18
JS - debounce(去抖) 和 throttle(節(jié)流)

閱讀 3111·2019-08-23 18:36
JavaScript 之原型和原型鏈

閱讀 2416·2019-08-23 18:25
webpack 配置多頁面應(yīng)用的一次嘗試

閱讀 1194·2019-08-23 18:07
url字符串解析

閱讀 463·2019-08-23 17:15

成人国产在线小视频_日韩寡妇人妻调教在线播放_色成人www永久在线观看_2018国产精品久久_亚洲欧美高清在线30p_亚洲少妇综合一区_黄色在线播放国产_亚洲另类技巧小说校园_国产主播xx日韩_a级毛片在线免费

資訊專欄INFORMATION COLUMN

上云采購季！| 2核2G4M爆款云服務(wù)器低至59元/年，更有多臺、長期優(yōu)惠，快來選購！

簡單的node爬蟲存入excel數(shù)據(jù)分析

相關(guān)文章

node爬取拉勾網(wǎng)數(shù)據(jù)并導(dǎo)出為excel文件

爬蟲小demo

***nodejs使用node-xlsx生成excel***

scrapy-redis分布式爬蟲框架詳解

發(fā)表評論

0條評論

Mike617

男|高級講師

TA的文章

阿里云企業(yè)和個人賬號區(qū)別是什么?阿里云企業(yè)認證和個人實名認證區(qū)別

上百道最新前端面試題

前端小白進階筆記之多級菜單分享