使用 node 抓取網(wǎng)頁圖片

genedna 發(fā)布于2019-08-21 17:03 / 649人閱讀

摘要：使用抓取網(wǎng)頁圖片的使用非常廣泛，可以做通信，做爬蟲，甚至可以做桌面應(yīng)用程序。今天就利用閑暇時間寫個小小的分享利用爬取百度圖片首頁的圖片。

使用 node 抓取網(wǎng)頁圖片

node 的使用非常廣泛，可以做通信，做爬蟲，甚至可以做桌面應(yīng)用程序。

今天就利用閑暇時間寫個小小的分享：利用 node 爬取百度圖片首頁的圖片。

對，就是中間那幾張：

首先新建一個文件夾，名字隨便取，只要不是中文就行，然后在命令行中初始化一下：

npm init -y

新建一個名為 app.js 的文件

在這個文件里，我們需要引入一些模塊：

var http=require("http");
var https=require("https")
var fs=require("fs");
var cheerio=require("cheerio");

cheerio 模塊是第三方模塊，需要進(jìn)行安裝：

npm install cheerio --save

接下來，需要解析百度圖片的首頁：

var wz="http://images.baidu.com/";
var strHtml="";
http.get(wz,(res)=>{
    res.on("data",(chunk)=>{
        strHtml+=chunk;
    });
    console.log(strHtml)
})

在命令行輸入 node app.js 運(yùn)行，會在命令行看到網(wǎng)頁的源代碼。這樣網(wǎng)頁就解析完了。

接下來我們需要獲取首頁中間的十張圖片。

要獲取圖片，就必須知道圖片的 url 地址，在這個網(wǎng)頁上，圖片的url地址在 img_single_box 下的 img 標(biāo)簽里。

我們之前引用了一個名為 cheerio 的第三方模塊，這個庫是一個 jQuery 的模塊，可以在服務(wù)端寫 jQuery

在上面的代碼示例中，我們已經(jīng)獲取到了網(wǎng)頁源代碼，接下來就要找到我們需要的 url 地址了：

http.get(wz,(res)=>{
    res.on("data",(chunk)=>{
        ···
    });
    res.on("end",()=>{
        var $=cheerio.load(strHtml);

        //建立一個空數(shù)組，用來放我們?nèi)〉玫膗rl地址
        var imgdata=[];
        $(".img_single_box img").each((index,item)=>{
            imgdata.push($(item).attr("src"))
        });
        console.log(imgdata)
    })
})

運(yùn)行我們寫的文件，你將會看到我們需要的url地址已經(jīng)存進(jìn)去了。

現(xiàn)在就利用這幾個url地址來保存圖片了

http.get(wz,(res)=>{
    res.on("data",(chunk)=>{
        ···
    });
    res.on("end",()=>{
        ···
        function saveImage(imgdata){
            https.get(imgdata,(res)=>{
                res.setEncoding("binary");//二進(jìn)制文件
                var data="";
                res.on("data",(a)=>{
                    data+=a;
                }).on("end",()=>{
                    if(!fs.existsSync("./images")){
                        fs.mkdirSync("./images");
                    };
                    fs.writeFile("images/"+Math.random()+".png",data,"binary",(err)=>{
                        if(!err)
                        console.log("成功")
                    })
                })
            });
        }
        for(var i=0;i
到這里就寫完了，在命令行 node app.js ，是不是在 images 文件夾下有了10張圖片呢？