node JS爬蟲基礎(chǔ)篇

AlanKeene 發(fā)布于2019-08-22 15:14 / 2411人閱讀

摘要：項(xiàng)目中一直用不到但是覺得這門以作為編程基礎(chǔ)的服務(wù)端語言很有意思用它可以寫一些接口寫個(gè)爬蟲這是一門基礎(chǔ)篇看了一段時(shí)間文檔后寫個(gè)爬蟲增強(qiáng)一下的認(rèn)識(shí)吧爬蟲的原理感覺很簡(jiǎn)單大致分為一下三步獲取到對(duì)應(yīng)網(wǎng)站的數(shù)據(jù)也就是代碼篩選出你需要的數(shù)據(jù)比如用戶的信

項(xiàng)目中一直用不到node,但是覺得node這門以js作為編程基礎(chǔ)的服務(wù)端語言很有意思,用它可以寫一些接口,寫個(gè)爬蟲.這是一門基礎(chǔ)篇,看了一段時(shí)間文檔后寫個(gè)爬蟲增強(qiáng)一下node的認(rèn)識(shí)吧

爬蟲的原理感覺很簡(jiǎn)單,大致分為一下三步

獲取到對(duì)應(yīng)網(wǎng)站的數(shù)據(jù)(也就是html代碼)

篩選出你需要的數(shù)據(jù)(比如用戶的信息,圖片的地址)

下載或者整理出你所要的資源寫入數(shù)據(jù)庫

var http=require("http")
var fs  =require("fs")
var path=require("path")
http.get("http://jspang.com/",function(res){
    var content=""
    res.on("data",function(txt){
        content+=txt
    })

    res.on("end",function(){
        var reg=/data-src="(.*?.jpg)"/img;//匹配出圖片地址
        // var data=content.match(reg);
        // fs.writeFile("./test.txt",data,function(){
        //     console.log("寫入成功")
        // })

        var filename=null;
        //循環(huán)出圖片地址
        while(filename=reg.exec(content)){
            getImage(filename[1])
        }
    })
})
//下載圖片
function getImage(url){
    var obj=path.parse(url);
    var name=obj.base;
    var filestream=fs.createWriteStream("./img/"+name);
    http.get(url,function(res){
        res.pipe(filestream)
    })
}

當(dāng)然這只是個(gè)最簡(jiǎn)單的demo了,下面會(huì)持續(xù)更新進(jìn)階版的！

市面上的框架千變?nèi)f化，只有基礎(chǔ)知識(shí)比較好才能夠?qū)W習(xí)的更好，而且需要多學(xué)習(xí)一下性能優(yōu)化，網(wǎng)絡(luò)，安全這方面，因?yàn)樵诖蠊纠锩?，其?shí)重要的東西并不是你能夠做的多好看，而是你的安全性那些做的好不好，一不小心信息泄露了，那就會(huì)導(dǎo)致很多無法想象的事情。

云服務(wù)器 GPU云服務(wù)器基礎(chǔ)篇之基礎(chǔ)篇 java語言程序設(shè)計(jì)基礎(chǔ)篇零基礎(chǔ)爬蟲

文章版權(quán)歸作者所有，未經(jīng)允許請(qǐng)勿轉(zhuǎn)載,若此文章存在違規(guī)行為，您可以聯(lián)系管理員刪除。

轉(zhuǎn)載請(qǐng)注明本文地址：http://systransis.cn/yun/93289.html

發(fā)表評(píng)論

登陸后可評(píng)論

0條評(píng)論

AlanKeene

男|高級(jí)講師

我要關(guān)注我要私信

TA的文章

tensorflow保存pb

閱讀 3302·2023-04-26 02:42
Java基礎(chǔ)學(xué)習(xí)教程，eclipse簡(jiǎn)單使用教程（Java集成開發(fā)工具）

閱讀 803·2021-10-09 09:41
yolov5無從下手？一篇就夠,2021年全部基于最新配置的yolo入門升級(jí)路線

閱讀 3251·2021-09-06 15:02
【Cute-Webpack】Webpack4 入門手冊(cè)（共 18 章）

閱讀 760·2019-08-26 10:45
CSS尺寸單位介紹

閱讀 493·2019-08-23 15:53
頁面快速定位到指定位置的幾個(gè)方法

閱讀 752·2019-08-22 18:10
node.js之readline模塊的使用

閱讀 560·2019-08-22 18:01
兩個(gè)函數(shù)式解決大數(shù)相加的方法

閱讀 3526·2019-08-22 17:34

成人国产在线小视频_日韩寡妇人妻调教在线播放_色成人www永久在线观看_2018国产精品久久_亚洲欧美高清在线30p_亚洲少妇综合一区_黄色在线播放国产_亚洲另类技巧小说校园_国产主播xx日韩_a级毛片在线免费

資訊專欄INFORMATION COLUMN

上云采購季！| 2核2G4M爆款云服務(wù)器低至59元/年，更有多臺(tái)、長(zhǎng)期優(yōu)惠，快來選購！

node JS爬蟲基礎(chǔ)篇

當(dāng)然這只是個(gè)最簡(jiǎn)單的demo了,下面會(huì)持續(xù)更新進(jìn)階版的！

相關(guān)文章

實(shí)用的開源百度云分享爬蟲項(xiàng)目yunshare - 安裝篇

**上天的Node.js之爬蟲篇 15行代碼爬取京東淘寶資源【深入淺出】**

**上天的Node.js之爬蟲篇 15行代碼爬取京東淘寶資源【深入淺出】**

**上天的Node.js之爬蟲篇 15行代碼爬取京東淘寶資源【深入淺出】**

**使用Node.js爬取任意網(wǎng)頁資源并輸出高質(zhì)量PDF文件到本地~**

發(fā)表評(píng)論

0條評(píng)論

AlanKeene

男|高級(jí)講師

TA的文章

tensorflow保存pb

Java基礎(chǔ)學(xué)習(xí)教程，eclipse簡(jiǎn)單使用教程（Java集成開發(fā)工具）

yolov5無從下手？一篇就夠,2021年全部基于最新配置的yolo入門升級(jí)路線

【Cute-Webpack】Webpack4 入門手冊(cè)（共 18 章）

CSS尺寸單位介紹

頁面快速定位到指定位置的幾個(gè)方法

node.js之readline模塊的使用

兩個(gè)函數(shù)式解決大數(shù)相加的方法

最新活動(dòng)

資訊專欄INFORMATION COLUMN

上云采購季！| 2核2G4M爆款云服務(wù)器低至59元/年，更有多臺(tái)、長(zhǎng)期優(yōu)惠，快來選購！

node JS爬蟲基礎(chǔ)篇

當(dāng)然這只是個(gè)最簡(jiǎn)單的demo了,下面會(huì)持續(xù)更新進(jìn)階版的！

相關(guān)文章

發(fā)表評(píng)論

0條評(píng)論

男|高級(jí)講師

TA的文章

最新活動(dòng)

上云采購季！| 2核2G4M爆款云服務(wù)器低至59元/年，更有多臺(tái)、長(zhǎng)期優(yōu)惠，快來選購！

當(dāng)然這只是個(gè)最簡(jiǎn)單的demo了,下面會(huì)持續(xù)更新進(jìn)階版的！