node.js簡(jiǎn)單爬蟲

tinylcy 發(fā)布于2019-08-20 14:40 / 1984人閱讀

這里假設(shè)你已經(jīng)安裝好node.js和npm，如果沒有安裝，請(qǐng)參閱其他教程安裝。

配置
首先是來配置package.json文件，這里使用express,request和cheerio。

package.json如下：

{
  "name": "node-scrape",
  "version": "0.0.1",
  "description": "Scrape",
  "main": "server.js",
  "dependencies": {
    "express" : "latest",
    "request" : "latest",
    "cheerio" : "latest"
  }
}

npm 安裝
把package.json文件放到一個(gè)你自己定義的文件夾(nodejs_scrape)下，然后在命令行下執(zhí)行

cd nodejs_scrape
npm install

抓取內(nèi)容
在nodejs_scrape目錄下新建一個(gè)server.js文件，先定義如下變量的和方法

var express = require("express");
var fs = require("fs");
var request = require("request");
var cheerio = require("cheerio");
var app = express();

app.get("/",function (req,res) {
    //抓取內(nèi)容的方法
});

app.listen("8081"); //使用8081端口

console.log("Magic happens on port 8081");

exports = module.exports = app;

下面我們就來完善get方法的內(nèi)容
首先定義要抓取的url，這里以segmentfault為例

url  = "https://segmentfault.com/news";

頁面如下面所示，點(diǎn)擊F12查看，我們就提取最簡(jiǎn)單的 class="mr10" 這個(gè)標(biāo)簽

抓取內(nèi)容的方法如下

 request(url, function (err,res,html) {
        if (!err){ 
            var $ = cheerio.load(html);

            var title;

            $(".mr10").filter(function () {
                var data = $(this);

                title = data.text(); //獲取標(biāo)簽的內(nèi)容

                console.log("title is " + title); //控制臺(tái)打印
            });
        }
    });

server.js完整代碼如下

/**
 * Created by Administrator on 2017/3/1.
 */
var express = require("express");
var fs = require("fs");
var request = require("request");
var cheerio = require("cheerio");
var app = express();

app.get("/",function (req,res) {

    //all scrape magic will happen here

    url  = "https://segmentfault.com/news";

    request(url, function (err,res,html) {
        if (!err){
            var $ = cheerio.load(html);

            var title;

            $(".mr10").filter(function () {
                var data = $(this);

                title = data.text();

                console.log("title is " + title);
                
            });
        }
    });

});

app.listen("8081");

console.log("Magic happens on port 8081");

exports = module.exports = app;

運(yùn)行
在nodejs_scrape目錄下運(yùn)行 node server ,可以看到如下所示

在瀏覽器運(yùn)行http://127.0.0.1:8081/，可以看到抓取的內(nèi)容如下：

這樣我們就完成了一個(gè)簡(jiǎn)單到不能再簡(jiǎn)單的node.js爬蟲。

GPU云服務(wù)器云服務(wù)器簡(jiǎn)單爬蟲爬蟲簡(jiǎn)單簡(jiǎn)單的爬蟲簡(jiǎn)單爬蟲框架

文章版權(quán)歸作者所有，未經(jīng)允許請(qǐng)勿轉(zhuǎn)載,若此文章存在違規(guī)行為，您可以聯(lián)系管理員刪除。

轉(zhuǎn)載請(qǐng)注明本文地址：http://systransis.cn/yun/81826.html

發(fā)表評(píng)論

登陸后可評(píng)論

0條評(píng)論

tinylcy

男|高級(jí)講師

我要關(guān)注我要私信

TA的文章

tensorflow安裝

閱讀 3397·2023-04-25 14:07
STM32CubeMX學(xué)習(xí)教程之硬件I2C讀取光照度

閱讀 3466·2021-09-28 09:35
前端知識(shí)點(diǎn)(一)

閱讀 2097·2019-08-30 15:55
使用CDN提高Flask-Moment（Moment.js）的加載速度

閱讀 1412·2019-08-30 13:48
參加第三屆Css conf of China后的個(gè)人回顧

閱讀 2505·2019-08-30 13:16
CSS魔法堂：你真的懂text-align嗎？

閱讀 3206·2019-08-30 12:54
Web性能優(yōu)化

閱讀 3241·2019-08-30 11:19
IOS下圖片不能顯示問題的解決辦法

閱讀 1881·2019-08-29 17:17

成人国产在线小视频_日韩寡妇人妻调教在线播放_色成人www永久在线观看_2018国产精品久久_亚洲欧美高清在线30p_亚洲少妇综合一区_黄色在线播放国产_亚洲另类技巧小说校园_国产主播xx日韩_a级毛片在线免费

資訊專欄INFORMATION COLUMN

上云采購季！| 2核2G4M爆款云服務(wù)器低至59元/年，更有多臺(tái)、長(zhǎng)期優(yōu)惠，快來選購！

node.js簡(jiǎn)單爬蟲

相關(guān)文章

**分分鐘教你用node.js寫個(gè)爬蟲**

**使用Node.js開發(fā)一個(gè)小爬蟲**

node JS爬蟲基礎(chǔ)篇

發(fā)表評(píng)論

0條評(píng)論

tinylcy

男|高級(jí)講師

TA的文章

tensorflow安裝

STM32CubeMX學(xué)習(xí)教程之硬件I2C讀取光照度

前端知識(shí)點(diǎn)(一)

使用CDN提高Flask-Moment（Moment.js）的加載速度

參加第三屆Css conf of China后的個(gè)人回顧

CSS魔法堂：你真的懂text-align嗎？

Web性能優(yōu)化

IOS下圖片不能顯示問題的解決辦法

最新活動(dòng)

資訊專欄INFORMATION COLUMN

上云采購季！| 2核2G4M爆款云服務(wù)器低至59元/年，更有多臺(tái)、長(zhǎng)期優(yōu)惠，快來選購！

node.js簡(jiǎn)單爬蟲

相關(guān)文章

發(fā)表評(píng)論

0條評(píng)論

男|高級(jí)講師

TA的文章

最新活動(dòng)

上云采購季！| 2核2G4M爆款云服務(wù)器低至59元/年，更有多臺(tái)、長(zhǎng)期優(yōu)惠，快來選購！