如何用70行Java代碼實(shí)現(xiàn)深度神經(jīng)網(wǎng)絡(luò)算法

Richard_Gao 發(fā)布于2019-04-25 18:01 / 879人閱讀

摘要：但實(shí)際上機(jī)器學(xué)習(xí)算法落地程序并不難寫，下面是行代碼實(shí)現(xiàn)的反向多層神經(jīng)網(wǎng)絡(luò)算法，也就是深度學(xué)習(xí)。神經(jīng)網(wǎng)絡(luò)的算法程序?qū)崿F(xiàn)神經(jīng)網(wǎng)絡(luò)的算法程序?qū)崿F(xiàn)分為初始化向前計(jì)算結(jié)果，反向修改權(quán)重三個過程。

對于現(xiàn)在流行的深度學(xué)習(xí)，保持學(xué)習(xí)精神是必要的——程序員尤其是架構(gòu)師永遠(yuǎn)都要對核心技術(shù)和關(guān)鍵算法保持關(guān)注和敏感，必要時要動手寫一寫掌握下來，先不用關(guān)心什么時候用到——用不用是政治問題，會不會寫是技術(shù)問題，就像軍人不關(guān)心打不打的問題，而要關(guān)心如何打贏的問題。

程序員如何學(xué)習(xí)機(jī)器學(xué)習(xí)

對程序員來說，機(jī)器學(xué)習(xí)是有一定門檻的（這個門檻也是其核心競爭力），相信很多人在學(xué)習(xí)機(jī)器學(xué)習(xí)時都會為滿是數(shù)學(xué)公式的英文論文而頭疼，甚至可能知難而退。但實(shí)際上機(jī)器學(xué)習(xí)算法落地程序并不難寫，下面是70行代碼實(shí)現(xiàn)的反向多層（BP）神經(jīng)網(wǎng)絡(luò)算法，也就是深度學(xué)習(xí)。其實(shí)不光是神經(jīng)網(wǎng)絡(luò)，邏輯回歸、決策樹C45/ID3、隨機(jī)森林、貝葉斯、協(xié)同過濾、圖計(jì)算、Kmeans、PageRank等大部分機(jī)器學(xué)習(xí)算法都能在100行單機(jī)程序內(nèi)實(shí)現(xiàn)（以后考慮分享出來）。

機(jī)器學(xué)習(xí)的真正難度在于它為什么要這么計(jì)算，它背后的數(shù)學(xué)原理是什么，怎么推導(dǎo)得來的公式，網(wǎng)上大部分的資料都在介紹這部分理論知識，卻很少告訴你該算法的計(jì)算過程和程序落地是怎么樣的，對于程序員來說，你需要做的僅是工程化應(yīng)用，而不需要證明出一項(xiàng)新的數(shù)學(xué)計(jì)算方法。實(shí)際大部分機(jī)器學(xué)習(xí)工程師都是利用別人寫好的開源包或者工具軟件，輸入數(shù)據(jù)和調(diào)整計(jì)算系數(shù)來訓(xùn)練結(jié)果，甚至很少自己實(shí)現(xiàn)算法過程。但是掌握每個算法的計(jì)算過程仍然非常重要，這樣你才能理解該算法讓數(shù)據(jù)產(chǎn)生了什么樣的變化，理解算法的目的是為了達(dá)到什么樣的效果。

本文重點(diǎn)探討反向神經(jīng)網(wǎng)絡(luò)的單機(jī)實(shí)現(xiàn)，關(guān)于神經(jīng)網(wǎng)絡(luò)的多機(jī)并行化，F(xiàn)ourinone提供非常靈活完善的并行計(jì)算框架，我們只需要理解透單機(jī)程序?qū)崿F(xiàn)，就能構(gòu)思和設(shè)計(jì)出分布式并行化方案，如果不理解算法計(jì)算過程，一切思路將無法展開。另外，還有卷積神經(jīng)網(wǎng)絡(luò)，主要是一種降維思想，用于圖像處理，不在本文討論范圍。

神經(jīng)網(wǎng)絡(luò)的計(jì)算過程

神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)如下圖所示，最左邊的是輸入層，最右邊的是輸出層，中間是多個隱含層，隱含層和輸出層的每個神經(jīng)節(jié)點(diǎn)，都是由上一層節(jié)點(diǎn)乘以其權(quán)重累加得到，標(biāo)上“+1”的圓圈為截距項(xiàng)b，對輸入層外每個節(jié)點(diǎn)：Y=w0*x0+w1*x1+…+wn*xn+b，由此我們可以知道神經(jīng)網(wǎng)絡(luò)相當(dāng)于一個多層邏輯回歸的結(jié)構(gòu)。

（圖片來自UFLDL Tutorial）

算法計(jì)算過程：輸入層開始，從左往右計(jì)算，逐層往前直到輸出層產(chǎn)生結(jié)果。如果結(jié)果值和目標(biāo)值有差距，再從右往左算，逐層向后計(jì)算每個節(jié)點(diǎn)的誤差，并且調(diào)整每個節(jié)點(diǎn)的所有權(quán)重，反向到達(dá)輸入層后，又重新向前計(jì)算，重復(fù)迭代以上步驟，直到所有權(quán)重參數(shù)收斂到一個合理值。由于計(jì)算機(jī)程序求解方程參數(shù)和數(shù)學(xué)求法不一樣，一般是先隨機(jī)選取參數(shù)，然后不斷調(diào)整參數(shù)減少誤差直到逼近正確值，所以大部分的機(jī)器學(xué)習(xí)都是在不斷迭代訓(xùn)練，下面我們從程序上詳細(xì)看看該過程實(shí)現(xiàn)就清楚了。

神經(jīng)網(wǎng)絡(luò)的算法程序?qū)崿F(xiàn)

神經(jīng)網(wǎng)絡(luò)的算法程序?qū)崿F(xiàn)分為初始化、向前計(jì)算結(jié)果，反向修改權(quán)重三個過程。

1. 初始化過程

由于是n層神經(jīng)網(wǎng)絡(luò)，我們用二維數(shù)組layer記錄節(jié)點(diǎn)值，第一維為層數(shù)，第二維為該層節(jié)點(diǎn)位置，數(shù)組的值為節(jié)點(diǎn)值；同樣，節(jié)點(diǎn)誤差值layerErr也是相似方式記錄。用三維數(shù)組layer_weight記錄各節(jié)點(diǎn)權(quán)重，第一維為層數(shù)，第二維為該層節(jié)點(diǎn)位置，第三維為下層節(jié)點(diǎn)位置，數(shù)組的值為某節(jié)點(diǎn)到達(dá)下層某節(jié)點(diǎn)的權(quán)重值，初始值為0-1之間的隨機(jī)數(shù)。為了優(yōu)化收斂速度，這里采用動量法權(quán)值調(diào)整，需要記錄上一次權(quán)值調(diào)整量，用三維數(shù)組layer_weight_delta來記錄，截距項(xiàng)處理：程序里將截距的值設(shè)置為1，這樣只需要計(jì)算它的權(quán)重就可以了。

2. 向前計(jì)算結(jié)果

采用S函數(shù)1/(1+Math.exp(-z))將每個節(jié)點(diǎn)的值統(tǒng)一到0-1之間，再逐層向前計(jì)算直到輸出層，對于輸出層，實(shí)際上是不需要再用S函數(shù)的，我們這里將輸出結(jié)果視為0到1之間的概率值，所以也采用了S函數(shù)，這樣也有利于程序?qū)崿F(xiàn)的統(tǒng)一性。

3. 反向修改權(quán)重

神經(jīng)網(wǎng)絡(luò)如何計(jì)算誤差，一般采用平方型誤差函數(shù)E，如下：

也就是將多個輸出項(xiàng)和對應(yīng)目標(biāo)值的誤差的平方累加起來，再除以2。實(shí)際上邏輯回歸的誤差函數(shù)也是這個，至于為什么要用這個函數(shù)來計(jì)算誤差，它從數(shù)學(xué)上的合理性是什么，怎么得來的，這個我建議程序員們不想當(dāng)數(shù)學(xué)家的話，先不去深究了，現(xiàn)在我們要做的是如何把這個函數(shù)E誤差取它的最小值，需要對其進(jìn)行求導(dǎo)，如果有些求導(dǎo)數(shù)學(xué)基礎(chǔ)的話，倒可以嘗試去推導(dǎo)下如何從函數(shù)E對權(quán)重求導(dǎo)得到下面這個公式的：

不會推導(dǎo)也沒有關(guān)系，我們只需要運(yùn)用結(jié)果公式就可以了，在我們的程序里用layerErr記錄了E對權(quán)重求導(dǎo)后的最小化誤差，再根據(jù)最小化誤差去調(diào)整權(quán)重。

注意這里采用動量法調(diào)整，將上一次調(diào)整的經(jīng)驗(yàn)考慮進(jìn)來，避免陷入局部最小值，下面的k代表迭代次數(shù)，mobp為動量項(xiàng)，rate為學(xué)習(xí)步長：

Δw(k+1) = mobp*Δw(k)+rate*Err*Layer

也有很多使用下面的公式，效果上的差別不是太大：

Δw(k+1) = mobp*Δw(k)+(1-mobp)rate*Err*Layer

為了提升性能，注意程序?qū)崿F(xiàn)是在一個while里面同時計(jì)算誤差和調(diào)整權(quán)重，先將位置定位到倒數(shù)第二層（也就是最后一層隱含層）上，然后逐層反向調(diào)整，根據(jù)L+1層算好的誤差來調(diào)整L層的權(quán)重，同時計(jì)算好L層的誤差，用于下一次循環(huán)到L-1層時計(jì)算權(quán)重，以此循環(huán)下去直到倒數(shù)第一層（輸入層）結(jié)束。

小結(jié)

在整個計(jì)算過程中，節(jié)點(diǎn)的值是每次計(jì)算都在變化的，不需要保存，而權(quán)重參數(shù)和誤差參數(shù)是需要保存的，需要為下一次迭代提供支持，因此，如果我們構(gòu)思一個分布式的多機(jī)并行計(jì)算方案，就能理解其他框架中為什么會有一個Parameter Server的概念。

多層神經(jīng)網(wǎng)絡(luò)完整程序?qū)崿F(xiàn)

下面的實(shí)現(xiàn)程序BpDeep.Java可以直接拿去使用，也很容易修改為C、C#、Python等其他任何語言實(shí)現(xiàn)，因?yàn)槎际鞘褂玫幕菊Z句，沒有用到其他Java庫（除了Random函數(shù)）。以下為原創(chuàng)程序，轉(zhuǎn)載引用時請注明作者和出處。

import java.util.Random;

public class BpDeep{

? ? public double[][] layer;//神經(jīng)網(wǎng)絡(luò)各層節(jié)點(diǎn)

? ? public double[][] layerErr;//神經(jīng)網(wǎng)絡(luò)各節(jié)點(diǎn)誤差

? ? public double[][][] layer_weight;//各層節(jié)點(diǎn)權(quán)重

? ? public double[][][] layer_weight_delta;//各層節(jié)點(diǎn)權(quán)重動量

? ? public double mobp;//動量系數(shù)

? ? public double rate;//學(xué)習(xí)系數(shù)

? ? public BpDeep(int[] layernum, double rate, double mobp){

? ? ? ? this.mobp = mobp;

? ? ? ? this.rate = rate;

? ? ? ? layer = new double[layernum.length][];

? ? ? ? layerErr = new double[layernum.length][];

? ? ? ? layer_weight = new double[layernum.length][][];

? ? ? ? layer_weight_delta = new double[layernum.length][][];

? ? ? ? Random random = new Random();

? ? ? ? for(int l=0;l

? ? ? ? ? ? layer[l]=new double[layernum[l]];

? ? ? ? ? ? layerErr[l]=new double[layernum[l]];

? ? ? ? ? ? if(l+1

? ? ? ? ? ? ? ? layer_weight[l]=new double[layernum[l]+1][layernum[l+1]];

? ? ? ? ? ? ? ? layer_weight_delta[l]=new double[layernum[l]+1][layernum[l+1]]; ? ? ? ? ? ? ? ? ? ?for(int j=0;j

? ? ? ? ? ? ? ? ? ? for(int i=0;i

? ? ? ? ? ? ? ? ? ? ? ? layer_weight[l][j][i]=random.nextDouble();//隨機(jī)初始化權(quán)重

? ? ? ? ? ? } ??

? ? ? ? }

? ? } ? ?//逐層向前計(jì)算輸出

? ? public double[] computeOut(double[] in){

? ? ? ? for(int l=1;l

? ? ? ? ? ? for(int j=0;j

? ? ? ? ? ? ? ?double z=layer_weight[l-1][layer[l-1].length][j]; ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ?for(int i=0;i

? ? ? ? ? ? ? ? ? ? layer[l-1][i]=l==1?in[i]:layer[l-1][i];

? ? ? ? ? ? ? ? ? ? z+=layer_weight[l-1][i][j]*layer[l-1][i];

? ? ? ? ? ? ? ? }

? ? ? ? ? ? ? ? layer[l][j]=1/(1+Math.exp(-z));

? ? ? ? ? ? }

? ? ? ? } ? ? ? ?return layer[layer.length-1];

? ? } ? ?//逐層反向計(jì)算誤差并修改權(quán)重

? ? public void updateWeight(double[] tar){

? ? ? ? int l=layer.length-1;

? ? ? ? for(int j=0;j

? ? ? ? ? ? layerErr[l][j]=layer[l][j]*(1-layer[l][j])*(tar[j]-layer[l][j]); ? ? ? ?while(l-->0){

? ? ? ? ? ? for(int j=0;j

? ? ? ? ? ? ? ? double z = 0.0;

? ? ? ? ? ? ? ? for(int i=0;i

? ? ? ? ? ? ? ? ? ? z=z+l>0?layerErr[l+1][i]*layer_weight[l][j][i]:0;

? ? ? ? ? ? ? ? ? ? layer_weight_delta[l][j][i]= mobp*layer_weight_delta[l][j][i]+rate*layerErr[l+1][i]*layer[l][j];//隱含層動量調(diào)整

? ? ? ? ? ? ? ? ? ? layer_weight[l][j][i]+=layer_weight_delta[l][j][i];//隱含層權(quán)重調(diào)整

? ? ? ? ? ? ? ? ? ? if(j==layerErr[l].length-1){

? ? ? ? ? ? ? ? ? ? ? ? layer_weight_delta[l][j+1][i]= mobp*layer_weight_delta[l][j+1][i]+rate*layerErr[l+1][i];//截距動量調(diào)整

? ? ? ? ? ? ? ? ? ? ? ? layer_weight[l][j+1][i]+=layer_weight_delta[l][j+1][i];//截距權(quán)重調(diào)整

? ? ? ? ? ? ? ? ? ? }

? ? ? ? ? ? ? ? }

? ? ? ? ? ? ? ? layerErr[l][j]=z*layer[l][j]*(1-layer[l][j]);//記錄誤差

? ? ? ? ? ? }

? ? ? ? }

? ? } ? ?public void train(double[] in, double[] tar){

? ? ? ? double[] out = computeOut(in);

? ? ? ? updateWeight(tar);

? ? }

}

一個運(yùn)用神經(jīng)網(wǎng)絡(luò)的例子

最后我們找個簡單例子來看看神經(jīng)網(wǎng)絡(luò)神奇的效果。為了方便觀察數(shù)據(jù)分布，我們選用一個二維坐標(biāo)的數(shù)據(jù)，下面共有4個數(shù)據(jù)，方塊代表數(shù)據(jù)的類型為1，三角代表數(shù)據(jù)的類型為0，可以看到屬于方塊類型的數(shù)據(jù)有（1，2）和（2，1），屬于三角類型的數(shù)據(jù)有（1，1），（2，2），現(xiàn)在問題是需要在平面上將4個數(shù)據(jù)分成1和0兩類，并以此來預(yù)測新的數(shù)據(jù)的類型。

我們可以運(yùn)用邏輯回歸算法來解決上面的分類問題，但是邏輯回歸得到一個線性的直線做為分界線，可以看到上面的紅線無論怎么擺放，總是有一個樣本被錯誤地劃分到不同類型中，所以對于上面的數(shù)據(jù)，僅僅一條直線不能很正確地劃分他們的分類，如果我們運(yùn)用神經(jīng)網(wǎng)絡(luò)算法，可以得到下圖的分類效果，相當(dāng)于多條直線求并集來劃分空間，這樣準(zhǔn)確性更高。

下面是這個測試程序BpDeepTest.java的源碼：

import java.util.Arrays;

public class BpDeepTest{

? ? public static void main(String[] args){

? ? ? ? //初始化神經(jīng)網(wǎng)絡(luò)的基本配置

? ? ? ? //第一個參數(shù)是一個整型數(shù)組，表示神經(jīng)網(wǎng)絡(luò)的層數(shù)和每層節(jié)點(diǎn)數(shù)，比如{3,10,10,10,10,2}表示輸入層是3個節(jié)點(diǎn)，輸出層是2個節(jié)點(diǎn)，中間有4層隱含層，每層10個節(jié)點(diǎn)

? ? ? ? //第二個參數(shù)是學(xué)習(xí)步長，第三個參數(shù)是動量系數(shù)

? ? ? ? BpDeep bp = new BpDeep(new int[]{2,10,2}, 0.15, 0.8);

? ? ? ? //設(shè)置樣本數(shù)據(jù)，對應(yīng)上面的4個二維坐標(biāo)數(shù)據(jù)

? ? ? ? double[][] data = new double[][]{{1,2},{2,2},{1,1},{2,1}};?

? ? ? ? //設(shè)置目標(biāo)數(shù)據(jù)，對應(yīng)4個坐標(biāo)數(shù)據(jù)的分類

? ? ? ? double[][] target = new double[][]{{1,0},{0,1},{0,1},{1,0}};

? ? ? ? //迭代訓(xùn)練5000次

? ? ? ? for(int n=0;n<5000;n++)

? ? ? ? ? ? for(int i=0;i

? ? ? ? ? ? ? ? bp.train(data[i], target[i]);

? ? ? ? //根據(jù)訓(xùn)練結(jié)果來檢驗(yàn)樣本數(shù)據(jù)

? ? ? ? for(int j=0;j

? ? ? ? ? ? double[] result = bp.computeOut(data[j]);

? ? ? ? ? ? System.out.println(Arrays.toString(data[j])+":"+Arrays.toString(result));

? ? ? ? }

? ? ? ? //根據(jù)訓(xùn)練結(jié)果來預(yù)測一條新數(shù)據(jù)的分類

? ? ? ? double[] x = new double[]{3,1};

? ? ? ? double[] result = bp.computeOut(x);

? ? ? ? System.out.println(Arrays.toString(x)+":"+Arrays.toString(result));

? ? }

}

小結(jié)

以上測試程序顯示神經(jīng)網(wǎng)絡(luò)有很神奇的分類效果，實(shí)際上神經(jīng)網(wǎng)絡(luò)有一定優(yōu)勢，但也不是接近人腦的萬能算法，很多時候它可能會讓我們失望，還需要結(jié)合各種場景的數(shù)據(jù)大量運(yùn)用去觀察其效果。我們可以把1層隱含層改成n層，并調(diào)整每層節(jié)點(diǎn)數(shù)、迭代次數(shù)、學(xué)習(xí)步長和動量系數(shù)，以獲得一個最優(yōu)化的結(jié)果。但是很多時候n層隱含層的效果并不比1層有明顯提升，反而計(jì)算更復(fù)雜耗時，我們對神經(jīng)網(wǎng)絡(luò)的認(rèn)識還需要多實(shí)踐多體會。

作者簡介：彭淵，在Java技術(shù)領(lǐng)域從業(yè)十多年，曾撰寫多款開源軟件，歷任淘寶高級專家和華為中間件首席架構(gòu)師。開源代表作有Fourinone（四不像）分布式核心技術(shù)框架、CoolHash并行數(shù)據(jù)庫引擎等，曾出版書籍《大規(guī)模分布式系統(tǒng)架構(gòu)與設(shè)計(jì)實(shí)戰(zhàn)》。?

歡迎加入本站公開興趣群

商業(yè)智能與數(shù)據(jù)分析群

興趣范圍包括各種讓數(shù)據(jù)產(chǎn)生價(jià)值的辦法，實(shí)際應(yīng)用案例分享與討論，分析工具，ETL工具，數(shù)據(jù)倉庫，數(shù)據(jù)挖掘工具，報(bào)表系統(tǒng)等全方位知識

QQ群：81035754

GPU云服務(wù)器云服務(wù)器如何用深度學(xué)習(xí) 個人如何用深度學(xué)習(xí) 如何用webrtc實(shí)現(xiàn)聊天如何用c語言實(shí)現(xiàn)組合

文章版權(quán)歸作者所有，未經(jīng)允許請勿轉(zhuǎn)載,若此文章存在違規(guī)行為，您可以聯(lián)系管理員刪除。

轉(zhuǎn)載請注明本文地址：http://systransis.cn/yun/4345.html

發(fā)表評論

登陸后可評論

0條評論

Richard_Gao

男|高級講師

我要關(guān)注我要私信

TA的文章

基于javaweb+jsp的酒店管理系統(tǒng)

閱讀 3023·2021-11-23 09:51
分享幾個YYDS的Pycharm插件

閱讀 2855·2021-11-11 16:55
python實(shí)現(xiàn)——處理Excel表格（超詳細(xì)）

閱讀 2973·2021-10-14 09:43
蘋果全體員工大會信息泄密給媒體，庫克表示將全力追查

閱讀 1427·2021-09-23 11:22
Vue Router history模式的配置方法及其原理

閱讀 1072·2019-08-30 11:04
深入理解 flex-grow & flex-shrink & flex-basis

閱讀 1722·2019-08-29 11:10
log4j日志級別

閱讀 994·2019-08-27 10:56
前端報(bào)表數(shù)據(jù)處理【去重、行轉(zhuǎn)列、交叉、聚合】

閱讀 3152·2019-08-26 12:01

成人国产在线小视频_日韩寡妇人妻调教在线播放_色成人www永久在线观看_2018国产精品久久_亚洲欧美高清在线30p_亚洲少妇综合一区_黄色在线播放国产_亚洲另类技巧小说校园_国产主播xx日韩_a级毛片在线免费

資訊專欄INFORMATION COLUMN

上云采購季！| 2核2G4M爆款云服務(wù)器低至59元/年，更有多臺、長期優(yōu)惠，快來選購！

如何用70行Java代碼實(shí)現(xiàn)深度神經(jīng)網(wǎng)絡(luò)算法

相關(guān)文章

OpenCV實(shí)戰(zhàn) | 八種目標(biāo)跟蹤算法

**前端每周清單第 41 期 : Node 與 Rust、OpenCV 的火花，網(wǎng)絡(luò)安全二三事**

圖鴨發(fā)布圖片壓縮TNG ,將節(jié)省55%帶寬

發(fā)表評論

0條評論

Richard_Gao

男|高級講師

TA的文章

基于javaweb+jsp的酒店管理系統(tǒng)

分享幾個YYDS的Pycharm插件

python實(shí)現(xiàn)——處理Excel表格（超詳細(xì)）

蘋果全體員工大會信息泄密給媒體，庫克表示將全力追查

Vue Router history模式的配置方法及其原理

深入理解 flex-grow & flex-shrink & flex-basis

log4j日志級別

前端報(bào)表數(shù)據(jù)處理【去重、行轉(zhuǎn)列、交叉、聚合】

最新活動

資訊專欄INFORMATION COLUMN

上云采購季！| 2核2G4M爆款云服務(wù)器低至59元/年，更有多臺、長期優(yōu)惠，快來選購！

如何用70行Java代碼實(shí)現(xiàn)深度神經(jīng)網(wǎng)絡(luò)算法

相關(guān)文章

發(fā)表評論

0條評論

男|高級講師

TA的文章

最新活動

上云采購季！| 2核2G4M爆款云服務(wù)器低至59元/年，更有多臺、長期優(yōu)惠，快來選購！