成人国产在线小视频_日韩寡妇人妻调教在线播放_色成人www永久在线观看_2018国产精品久久_亚洲欧美高清在线30p_亚洲少妇综合一区_黄色在线播放国产_亚洲另类技巧小说校园_国产主播xx日韩_a级毛片在线免费

資訊專欄INFORMATION COLUMN

node JS爬蟲基礎(chǔ)篇

AlanKeene / 2411人閱讀

摘要:項(xiàng)目中一直用不到但是覺得這門以作為編程基礎(chǔ)的服務(wù)端語言很有意思用它可以寫一些接口寫個(gè)爬蟲這是一門基礎(chǔ)篇看了一段時(shí)間文檔后寫個(gè)爬蟲增強(qiáng)一下的認(rèn)識(shí)吧爬蟲的原理感覺很簡(jiǎn)單大致分為一下三步獲取到對(duì)應(yīng)網(wǎng)站的數(shù)據(jù)也就是代碼篩選出你需要的數(shù)據(jù)比如用戶的信

項(xiàng)目中一直用不到node,但是覺得node這門以js作為編程基礎(chǔ)的服務(wù)端語言很有意思,用它可以寫一些接口,寫個(gè)爬蟲.這是一門基礎(chǔ)篇,看了一段時(shí)間文檔后寫個(gè)爬蟲增強(qiáng)一下node的認(rèn)識(shí)吧
爬蟲的原理感覺很簡(jiǎn)單,大致分為一下三步

獲取到對(duì)應(yīng)網(wǎng)站的數(shù)據(jù)(也就是html代碼)

篩選出你需要的數(shù)據(jù)(比如用戶的信息,圖片的地址)

下載或者整理出你所要的資源寫入數(shù)據(jù)庫

var http=require("http")
var fs  =require("fs")
var path=require("path")
http.get("http://jspang.com/",function(res){
    var content=""
    res.on("data",function(txt){
        content+=txt
    })

    res.on("end",function(){
        var reg=/data-src="(.*?.jpg)"/img;//匹配出圖片地址
        // var data=content.match(reg);
        // fs.writeFile("./test.txt",data,function(){
        //     console.log("寫入成功")
        // })

        var filename=null;
        //循環(huán)出圖片地址
        while(filename=reg.exec(content)){
            getImage(filename[1])
        }
    })
})
//下載圖片
function getImage(url){
    var obj=path.parse(url);
    var name=obj.base;
    var filestream=fs.createWriteStream("./img/"+name);
    http.get(url,function(res){
        res.pipe(filestream)
    })
}
當(dāng)然這只是個(gè)最簡(jiǎn)單的demo了,下面會(huì)持續(xù)更新進(jìn)階版的!
市面上的框架千變?nèi)f化,只有基礎(chǔ)知識(shí)比較好才能夠?qū)W習(xí)的更好,而且需要多學(xué)習(xí)一下性能優(yōu)化,網(wǎng)絡(luò),安全這方面,因?yàn)樵诖蠊纠锩?,其?shí)重要的東西并不是你能夠做的多好看,而是你的安全性那些做的好不好,一不小心信息泄露了,那就會(huì)導(dǎo)致很多無法想象的事情。

文章版權(quán)歸作者所有,未經(jīng)允許請(qǐng)勿轉(zhuǎn)載,若此文章存在違規(guī)行為,您可以聯(lián)系管理員刪除。

轉(zhuǎn)載請(qǐng)注明本文地址:http://systransis.cn/yun/93289.html

相關(guān)文章

  • 實(shí)用的開源百度云分享爬蟲項(xiàng)目yunshare - 安裝

    摘要:今天開源了一個(gè)百度云網(wǎng)盤爬蟲項(xiàng)目,地址是。推薦使用命令安裝依賴,最簡(jiǎn)單的安裝方式更多安裝的命令可以去上面找。啟動(dòng)項(xiàng)目使用進(jìn)行進(jìn)程管理,運(yùn)行啟動(dòng)所有的后臺(tái)任務(wù),檢查任務(wù)是否正常運(yùn)行可以用命令,正常運(yùn)行的應(yīng)該有個(gè)任務(wù)。 今天開源了一個(gè)百度云網(wǎng)盤爬蟲項(xiàng)目,地址是https://github.com/callmelanmao/yunshare。 百度云分享爬蟲項(xiàng)目 github上有好幾個(gè)這樣的...

    lei___ 評(píng)論0 收藏0
  • 上天的Node.js爬蟲 15行代碼爬取京東淘寶資源 【深入淺出】

    摘要:這里由于京東的分界面都使用了,所以我們可以用,總之他們開發(fā)能用的選擇器,我們都可以用,否則就不可以。 難道爬蟲只能用 python 做? 不,我們上天的 Node.js 也可以做! 需要準(zhǔn)備的包 Node.js的最新版本 下載地址 Node.js官網(wǎng) npm 包管理器下載 下載最新的官網(wǎng)版本 Node.js 會(huì)自帶 npm npm的第三方包 puppeteer 在對(duì)應(yīng)...

    宋華 評(píng)論0 收藏0
  • 上天的Node.js爬蟲 15行代碼爬取京東淘寶資源 【深入淺出】

    摘要:這里由于京東的分界面都使用了,所以我們可以用,總之他們開發(fā)能用的選擇器,我們都可以用,否則就不可以。 難道爬蟲只能用 python 做? 不,我們上天的 Node.js 也可以做! 需要準(zhǔn)備的包 Node.js的最新版本 下載地址 Node.js官網(wǎng) npm 包管理器下載 下載最新的官網(wǎng)版本 Node.js 會(huì)自帶 npm npm的第三方包 puppeteer 在對(duì)應(yīng)...

    104828720 評(píng)論0 收藏0
  • 上天的Node.js爬蟲 15行代碼爬取京東淘寶資源 【深入淺出】

    摘要:這里由于京東的分界面都使用了,所以我們可以用,總之他們開發(fā)能用的選擇器,我們都可以用,否則就不可以。 難道爬蟲只能用 python 做? 不,我們上天的 Node.js 也可以做! 需要準(zhǔn)備的包 Node.js的最新版本 下載地址 Node.js官網(wǎng) npm 包管理器下載 下載最新的官網(wǎng)版本 Node.js 會(huì)自帶 npm npm的第三方包 puppeteer 在對(duì)應(yīng)...

    kyanag 評(píng)論0 收藏0
  • 使用Node.js爬取任意網(wǎng)頁資源并輸出高質(zhì)量PDF文件到本地~

    摘要:上面只爬取了京東首頁的圖片內(nèi)容,假設(shè)我的需求進(jìn)一步擴(kuò)大,需要爬取京東首頁中的所有標(biāo)簽對(duì)應(yīng)的跳轉(zhuǎn)網(wǎng)頁中的所有的文字內(nèi)容,最后放到一個(gè)數(shù)組中。 showImg(https://segmentfault.com/img/bVbtVeV?w=3840&h=2160); 本文適合無論是否有爬蟲以及Node.js基礎(chǔ)的朋友觀看~ 需求: 使用Node.js爬取網(wǎng)頁資源,開箱即用的配置 將爬取到的...

    seasonley 評(píng)論0 收藏0

發(fā)表評(píng)論

0條評(píng)論

最新活動(dòng)
閱讀需要支付1元查看
<