摘要:項(xiàng)目中一直用不到但是覺得這門以作為編程基礎(chǔ)的服務(wù)端語言很有意思用它可以寫一些接口寫個(gè)爬蟲這是一門基礎(chǔ)篇看了一段時(shí)間文檔后寫個(gè)爬蟲增強(qiáng)一下的認(rèn)識(shí)吧爬蟲的原理感覺很簡(jiǎn)單大致分為一下三步獲取到對(duì)應(yīng)網(wǎng)站的數(shù)據(jù)也就是代碼篩選出你需要的數(shù)據(jù)比如用戶的信
項(xiàng)目中一直用不到node,但是覺得node這門以js作為編程基礎(chǔ)的服務(wù)端語言很有意思,用它可以寫一些接口,寫個(gè)爬蟲.這是一門基礎(chǔ)篇,看了一段時(shí)間文檔后寫個(gè)爬蟲增強(qiáng)一下node的認(rèn)識(shí)吧爬蟲的原理感覺很簡(jiǎn)單,大致分為一下三步
獲取到對(duì)應(yīng)網(wǎng)站的數(shù)據(jù)(也就是html代碼)
篩選出你需要的數(shù)據(jù)(比如用戶的信息,圖片的地址)
下載或者整理出你所要的資源寫入數(shù)據(jù)庫
var http=require("http") var fs =require("fs") var path=require("path") http.get("http://jspang.com/",function(res){ var content="" res.on("data",function(txt){ content+=txt }) res.on("end",function(){ var reg=/data-src="(.*?.jpg)"/img;//匹配出圖片地址 // var data=content.match(reg); // fs.writeFile("./test.txt",data,function(){ // console.log("寫入成功") // }) var filename=null; //循環(huán)出圖片地址 while(filename=reg.exec(content)){ getImage(filename[1]) } }) }) //下載圖片 function getImage(url){ var obj=path.parse(url); var name=obj.base; var filestream=fs.createWriteStream("./img/"+name); http.get(url,function(res){ res.pipe(filestream) }) }
市面上的框架千變?nèi)f化,只有基礎(chǔ)知識(shí)比較好才能夠?qū)W習(xí)的更好,而且需要多學(xué)習(xí)一下性能優(yōu)化,網(wǎng)絡(luò),安全這方面,因?yàn)樵诖蠊纠锩?,其?shí)重要的東西并不是你能夠做的多好看,而是你的安全性那些做的好不好,一不小心信息泄露了,那就會(huì)導(dǎo)致很多無法想象的事情。
文章版權(quán)歸作者所有,未經(jīng)允許請(qǐng)勿轉(zhuǎn)載,若此文章存在違規(guī)行為,您可以聯(lián)系管理員刪除。
轉(zhuǎn)載請(qǐng)注明本文地址:http://systransis.cn/yun/93289.html
摘要:今天開源了一個(gè)百度云網(wǎng)盤爬蟲項(xiàng)目,地址是。推薦使用命令安裝依賴,最簡(jiǎn)單的安裝方式更多安裝的命令可以去上面找。啟動(dòng)項(xiàng)目使用進(jìn)行進(jìn)程管理,運(yùn)行啟動(dòng)所有的后臺(tái)任務(wù),檢查任務(wù)是否正常運(yùn)行可以用命令,正常運(yùn)行的應(yīng)該有個(gè)任務(wù)。 今天開源了一個(gè)百度云網(wǎng)盤爬蟲項(xiàng)目,地址是https://github.com/callmelanmao/yunshare。 百度云分享爬蟲項(xiàng)目 github上有好幾個(gè)這樣的...
摘要:這里由于京東的分界面都使用了,所以我們可以用,總之他們開發(fā)能用的選擇器,我們都可以用,否則就不可以。 難道爬蟲只能用 python 做? 不,我們上天的 Node.js 也可以做! 需要準(zhǔn)備的包 Node.js的最新版本 下載地址 Node.js官網(wǎng) npm 包管理器下載 下載最新的官網(wǎng)版本 Node.js 會(huì)自帶 npm npm的第三方包 puppeteer 在對(duì)應(yīng)...
摘要:這里由于京東的分界面都使用了,所以我們可以用,總之他們開發(fā)能用的選擇器,我們都可以用,否則就不可以。 難道爬蟲只能用 python 做? 不,我們上天的 Node.js 也可以做! 需要準(zhǔn)備的包 Node.js的最新版本 下載地址 Node.js官網(wǎng) npm 包管理器下載 下載最新的官網(wǎng)版本 Node.js 會(huì)自帶 npm npm的第三方包 puppeteer 在對(duì)應(yīng)...
摘要:這里由于京東的分界面都使用了,所以我們可以用,總之他們開發(fā)能用的選擇器,我們都可以用,否則就不可以。 難道爬蟲只能用 python 做? 不,我們上天的 Node.js 也可以做! 需要準(zhǔn)備的包 Node.js的最新版本 下載地址 Node.js官網(wǎng) npm 包管理器下載 下載最新的官網(wǎng)版本 Node.js 會(huì)自帶 npm npm的第三方包 puppeteer 在對(duì)應(yīng)...
摘要:上面只爬取了京東首頁的圖片內(nèi)容,假設(shè)我的需求進(jìn)一步擴(kuò)大,需要爬取京東首頁中的所有標(biāo)簽對(duì)應(yīng)的跳轉(zhuǎn)網(wǎng)頁中的所有的文字內(nèi)容,最后放到一個(gè)數(shù)組中。 showImg(https://segmentfault.com/img/bVbtVeV?w=3840&h=2160); 本文適合無論是否有爬蟲以及Node.js基礎(chǔ)的朋友觀看~ 需求: 使用Node.js爬取網(wǎng)頁資源,開箱即用的配置 將爬取到的...
閱讀 3302·2023-04-26 02:42
閱讀 803·2021-10-09 09:41
閱讀 3251·2021-09-06 15:02
閱讀 760·2019-08-26 10:45
閱讀 493·2019-08-23 15:53
閱讀 752·2019-08-22 18:10
閱讀 560·2019-08-22 18:01
閱讀 3526·2019-08-22 17:34