神經(jīng)網(wǎng)絡(luò)基礎(chǔ)

starsfun 發(fā)布于2019-04-25 18:02 / 1918人閱讀

摘要：要學(xué)習(xí)深度學(xué)習(xí)，那么首先要熟悉神經(jīng)網(wǎng)絡(luò)，簡稱的一些基本概念。網(wǎng)絡(luò)徑向基函數(shù)網(wǎng)絡(luò)是一種單隱層前饋神經(jīng)網(wǎng)絡(luò)，它使用徑向基函數(shù)作為隱層神經(jīng)元激活函數(shù)，而輸出層則是對隱層神經(jīng)元輸出的線性組合。

閱讀目錄

1. 神經(jīng)元模型

2. 感知機和神經(jīng)網(wǎng)絡(luò)

3. 誤差逆?zhèn)鞑ニ惴?/p>

4. 常見的神經(jīng)網(wǎng)絡(luò)模型

5. 深度學(xué)習(xí)

6. 參考內(nèi)容

目前，深度學(xué)習(xí)（Deep Learning，簡稱DL）在算法領(lǐng)域可謂是大紅大紫，現(xiàn)在不只是互聯(lián)網(wǎng)、人工智能，生活中的各大領(lǐng)域都能反映出深度學(xué)習(xí)引領(lǐng)的巨大變革。要學(xué)習(xí)深度學(xué)習(xí)，那么首先要熟悉神經(jīng)網(wǎng)絡(luò)（Neural Networks，簡稱NN）的一些基本概念。當(dāng)然，這里所說的神經(jīng)網(wǎng)絡(luò)不是生物學(xué)的神經(jīng)網(wǎng)絡(luò)，我們將其稱之為人工神經(jīng)網(wǎng)絡(luò)（Artificial Neural Networks，簡稱ANN）貌似更為合理。神經(jīng)網(wǎng)絡(luò)最早是人工智能領(lǐng)域的一種算法或者說是模型，目前神經(jīng)網(wǎng)絡(luò)已經(jīng)發(fā)展成為一類多學(xué)科交叉的學(xué)科領(lǐng)域，它也隨著深度學(xué)習(xí)取得的進展重新受到重視和推崇。

為什么說是“重新”呢？其實，神經(jīng)網(wǎng)絡(luò)更為一種算法模型很早就已經(jīng)開始研究了，但是在取得一些進展后，神經(jīng)網(wǎng)絡(luò)的研究陷入了一段很長時間的低潮期，后來隨著Hinton在深度學(xué)習(xí)上取得的進展，神經(jīng)網(wǎng)絡(luò)又再次受到人們的重視。本文就以神經(jīng)網(wǎng)絡(luò)為主，著重總結(jié)一些相關(guān)的基礎(chǔ)知識，然后在此基礎(chǔ)上引出深度學(xué)習(xí)的概念，如有書寫不當(dāng)?shù)牡胤?，還請大家評批指正。

1. 神經(jīng)元模型

神經(jīng)元是神經(jīng)網(wǎng)絡(luò)中最基本的結(jié)構(gòu)，也可以說是神經(jīng)網(wǎng)絡(luò)的基本單元，它的設(shè)計靈感完全來源于生物學(xué)上神經(jīng)元的信息傳播機制。我們學(xué)過生物的同學(xué)都知道，神經(jīng)元有兩種狀態(tài)：興奮和抑制。一般情況下，大多數(shù)的神經(jīng)元是處于抑制狀態(tài)，但是一旦某個神經(jīng)元收到刺激，導(dǎo)致它的電位超過一個閾值，那么這個神經(jīng)元就會被激活，處于“興奮”狀態(tài)，進而向其他的神經(jīng)元傳播化學(xué)物質(zhì)（其實就是信息）。

下圖為生物學(xué)上的神經(jīng)元結(jié)構(gòu)示意圖：

1943年，McCulloch和Pitts將上圖的神經(jīng)元結(jié)構(gòu)用一種簡單的模型進行了表示，構(gòu)成了一種人工神經(jīng)元模型，也就是我們現(xiàn)在經(jīng)常用到的“M-P神經(jīng)元模型”，如下圖所示：

從上圖M-P神經(jīng)元模型可以看出，神經(jīng)元的輸出

其中θ為我們之前提到的神經(jīng)元的激活閾值，函數(shù)f(?)也被稱為是激活函數(shù)。如上圖所示，函數(shù)f(?)可以用一個階躍方程表示，大于閾值激活；否則則抑制。但是這樣有點太粗暴，因為階躍函數(shù)不光滑，不連續(xù)，不可導(dǎo)，因此我們更常用的方法是用sigmoid函數(shù)來表示函數(shù)函數(shù)f(?)。

sigmoid函數(shù)的表達式和分布圖如下所示：

2. 感知機和神經(jīng)網(wǎng)絡(luò)

感知機（perceptron）是由兩層神經(jīng)元組成的結(jié)構(gòu)，輸入層用于接受外界輸入信號，輸出層（也被稱為是感知機的功能層）就是M-P神經(jīng)元。下圖表示了一個輸入層具有三個神經(jīng)元（分別表示為x0、x1、x2）的感知機結(jié)構(gòu)：

根據(jù)上圖不難理解，感知機模型可以由如下公式表示：

? ? ? ? ? ? ? ? ? ? ? ? y=f(wx+b)

其中，w為感知機輸入層到輸出層連接的權(quán)重，b表示輸出層的偏置。事實上，感知機是一種判別式的線性分類模型，可以解決與、或、非這樣的簡單的線性可分（linearly separable）問題，線性可分問題的示意圖見下圖：

但是由于它只有一層功能神經(jīng)元，所以學(xué)習(xí)能力非常有限。事實證明，單層感知機無法解決最簡單的非線性可分問題——異或問題。

關(guān)于感知機解決異或問題還有一段歷史值得我們簡單去了解一下：感知器只能做簡單的線性分類任務(wù)。但是當(dāng)時的人們熱情太過于高漲，并沒有人清醒的認(rèn)識到這點。于是，當(dāng)人工智能領(lǐng)域的巨擘Minsky指出這點時，事態(tài)就發(fā)生了變化。Minsky在1969年出版了一本叫《Perceptron》的書，里面用詳細(xì)的數(shù)學(xué)證明了感知器的弱點，尤其是感知器對XOR（異或）這樣的簡單分類任務(wù)都無法解決。Minsky認(rèn)為，如果將計算層增加到兩層，計算量則過大，而且沒有有效的學(xué)習(xí)算法。所以，他認(rèn)為研究更深層的網(wǎng)絡(luò)是沒有價值的。由于Minsky的巨大影響力以及書中呈現(xiàn)的悲觀態(tài)度，讓很多學(xué)者和實驗室紛紛放棄了神經(jīng)網(wǎng)絡(luò)的研究。神經(jīng)網(wǎng)絡(luò)的研究陷入了冰河期。這個時期又被稱為“AI winter”。接近10年以后，對于兩層神經(jīng)網(wǎng)絡(luò)的研究才帶來神經(jīng)網(wǎng)絡(luò)的復(fù)蘇。

我們知道，我們?nèi)粘Ｉ钪泻芏鄦栴}，甚至說大多數(shù)問題都不是線性可分問題，那我們要解決非線性可分問題該怎樣處理呢？這就是這部分我們要引出的“多層”的概念。既然單層感知機解決不了非線性問題，那我們就采用多層感知機，下圖就是一個兩層感知機解決異或問題的示意圖：

構(gòu)建好上述網(wǎng)絡(luò)以后，通過訓(xùn)練得到最后的分類面如下：

由此可見，多層感知機可以很好的解決非線性可分問題，我們通常將多層感知機這樣的多層結(jié)構(gòu)稱之為是神經(jīng)網(wǎng)絡(luò)。但是，正如Minsky之前所擔(dān)心的，多層感知機雖然可以在理論上可以解決非線性問題，但是實際生活中問題的復(fù)雜性要遠(yuǎn)不止異或問題這么簡單，所以我們往往要構(gòu)建多層網(wǎng)絡(luò)，而對于多層神經(jīng)網(wǎng)絡(luò)采用什么樣的學(xué)習(xí)算法又是一項巨大的挑戰(zhàn)，如下圖所示的具有4層隱含層的網(wǎng)絡(luò)結(jié)構(gòu)中至少有33個參數(shù)（不計偏置bias參數(shù)），我們應(yīng)該如何去確定呢？

3. 誤差逆?zhèn)鞑ニ惴?/p>

所謂神經(jīng)網(wǎng)絡(luò)的訓(xùn)練或者是學(xué)習(xí)，其主要目的在于通過學(xué)習(xí)算法得到神經(jīng)網(wǎng)絡(luò)解決指定問題所需的參數(shù)，這里的參數(shù)包括各層神經(jīng)元之間的連接權(quán)重以及偏置等。因為作為算法的設(shè)計者（我們），我們通常是根據(jù)實際問題來構(gòu)造出網(wǎng)絡(luò)結(jié)構(gòu)，參數(shù)的確定則需要神經(jīng)網(wǎng)絡(luò)通過訓(xùn)練樣本和學(xué)習(xí)算法來迭代找到最優(yōu)參數(shù)組。

說起神經(jīng)網(wǎng)絡(luò)的學(xué)習(xí)算法，不得不提其中最杰出、最成功的代表——誤差逆?zhèn)鞑ィ╡rror BackPropagation，簡稱BP）算法。BP學(xué)習(xí)算法通常用在更為廣泛使用的多層前饋神經(jīng)網(wǎng)絡(luò)中。

4. 常見的神經(jīng)網(wǎng)絡(luò)模型

4.1 Boltzmann機和受限Boltzmann機

神經(jīng)網(wǎng)絡(luò)中有一類模型是為網(wǎng)絡(luò)狀態(tài)定義一個“能量”，能量最小化時網(wǎng)絡(luò)達到理想狀態(tài)，而網(wǎng)絡(luò)的訓(xùn)練就是在最小化這個能量函數(shù)。Boltzmann（玻爾茲曼）機就是基于能量的模型，其神經(jīng)元分為兩層：顯層和隱層。顯層用于表示數(shù)據(jù)的輸入和輸出，隱層則被理解為數(shù)據(jù)的內(nèi)在表達。Boltzmann機的神經(jīng)元都是布爾型的，即只能取0、1值。標(biāo)準(zhǔn)的Boltzmann機是全連接的，也就是說各層內(nèi)的神經(jīng)元都是相互連接的，因此計算復(fù)雜度很高，而且難以用來解決實際問題。因此，我們經(jīng)常使用一種特殊的Boltzmann機——受限玻爾茲曼機（Restricted Boltzmann Mechine，簡稱RBM），它層內(nèi)無連接，層間有連接，可以看做是一個二部圖。下圖為Boltzmann機和RBM的結(jié)構(gòu)示意圖：

RBM常常用對比散度（Constrastive Divergence，簡稱CD）來進行訓(xùn)練。

4.2 RBF網(wǎng)絡(luò)

RBF（Radial Basis Function）徑向基函數(shù)網(wǎng)絡(luò)是一種單隱層前饋神經(jīng)網(wǎng)絡(luò)，它使用徑向基函數(shù)作為隱層神經(jīng)元激活函數(shù)，而輸出層則是對隱層神經(jīng)元輸出的線性組合。下圖為一個RBF神經(jīng)網(wǎng)絡(luò)示意圖：

訓(xùn)練RBF網(wǎng)絡(luò)通常采用兩步：

1> 確定神經(jīng)元中心，常用的方式包括隨機采樣，聚類等；

2> 確定神經(jīng)網(wǎng)絡(luò)參數(shù)，常用算法為BP算法。

4.3 ART網(wǎng)絡(luò)

ART（Adaptive Resonance Theory）自適應(yīng)諧振理論網(wǎng)絡(luò)是競爭型學(xué)習(xí)的重要代表，該網(wǎng)絡(luò)由比較層、識別層、識別層閾值和重置模塊構(gòu)成。ART比較好的緩解了競爭型學(xué)習(xí)中的“可塑性-穩(wěn)定性窘境”（stability-plasticity dilemma），可塑性是指神經(jīng)網(wǎng)絡(luò)要有學(xué)習(xí)新知識的能力，而穩(wěn)定性則指的是神經(jīng)網(wǎng)絡(luò)在學(xué)習(xí)新知識時要保持對舊知識的記憶。這就使得ART網(wǎng)絡(luò)具有一個很重要的優(yōu)點：可進行增量學(xué)習(xí)或在線學(xué)習(xí)。

4.4 SOM網(wǎng)絡(luò)

SOM（Self-Organizing Map，自組織映射）網(wǎng)絡(luò)是一種競爭學(xué)習(xí)型的無監(jiān)督神經(jīng)網(wǎng)絡(luò)，它能將高維輸入數(shù)據(jù)映射到低維空間（通常為二維），同事保持輸入數(shù)據(jù)在高維空間的拓?fù)浣Y(jié)構(gòu)，即將高維空間中相似的樣本點映射到網(wǎng)絡(luò)輸出層中的臨近神經(jīng)元。下圖為SOM網(wǎng)絡(luò)的結(jié)構(gòu)示意圖：

4.5 結(jié)構(gòu)自適應(yīng)網(wǎng)絡(luò)

我們前面提到過，一般的神經(jīng)網(wǎng)絡(luò)都是先指定好網(wǎng)絡(luò)結(jié)構(gòu)，訓(xùn)練的目的是利用訓(xùn)練樣本來確定合適的連接權(quán)、閾值等參數(shù)。與此不同的是，結(jié)構(gòu)自適應(yīng)網(wǎng)絡(luò)則將網(wǎng)絡(luò)結(jié)構(gòu)也當(dāng)做學(xué)習(xí)的目標(biāo)之一，并希望在訓(xùn)練過程中找到最符合數(shù)據(jù)特點的網(wǎng)絡(luò)結(jié)構(gòu)。

4.6 遞歸神經(jīng)網(wǎng)絡(luò)以及Elman網(wǎng)絡(luò)

與前饋神經(jīng)網(wǎng)絡(luò)不同，遞歸神經(jīng)網(wǎng)絡(luò)（Recurrent Neural Networks，簡稱RNN）允許網(wǎng)絡(luò)中出現(xiàn)環(huán)形結(jié)構(gòu)，從而可以讓一些神經(jīng)元的輸出反饋回來作為輸入信號，這樣的結(jié)構(gòu)與信息反饋過程，使得網(wǎng)絡(luò)在tt時刻的輸出狀態(tài)不僅與tt時刻的輸入有關(guān)，還與t?1時刻的網(wǎng)絡(luò)狀態(tài)有關(guān)，從而能處理與時間有關(guān)的動態(tài)變化。

Elman網(wǎng)絡(luò)是最常用的遞歸神經(jīng)網(wǎng)絡(luò)之一，其結(jié)構(gòu)如下圖所示：

RNN一般的訓(xùn)練算法采用推廣的BP算法。值得一提的是，RNN在（t+1）時刻網(wǎng)絡(luò)的結(jié)果O(t+1)是該時刻輸入和所有歷史共同作用的結(jié)果，這樣就達到了對時間序列建模的目的。因此，從某種意義上來講，RNN被視為是時間深度上的深度學(xué)習(xí)也未嘗不對。

RNN在（t+1）時刻網(wǎng)絡(luò)的結(jié)果O(t+1)是該時刻輸入和所有歷史共同作用的結(jié)果，這么講其實也不是很準(zhǔn)確，因為“梯度發(fā)散”同樣也會發(fā)生在時間軸上，也就是說對于t時刻來說，它產(chǎn)生的梯度在時間軸上向歷史傳播幾層之后就消失了，根本無法影響太遙遠(yuǎn)的過去。因此，“所有的歷史”只是理想的情況。在實際中，這種影響也就只能維持若干個時間戳而已。換句話說，后面時間步的錯誤信號，往往并不能回到足夠遠(yuǎn)的過去，像更早的時間步一樣，去影響網(wǎng)絡(luò)，這使它很難以學(xué)習(xí)遠(yuǎn)距離的影響。

為了解決上述時間軸上的梯度發(fā)散，機器學(xué)習(xí)領(lǐng)域發(fā)展出了長短時記憶單元（Long-Short Term Memory，簡稱LSTM），通過門的開關(guān)實現(xiàn)時間上的記憶功能，并防止梯度發(fā)散。其實除了學(xué)習(xí)歷史信息，RNN和LSTM還可以被設(shè)計成為雙向結(jié)構(gòu)，即雙向RNN、雙向LSTM，同時利用歷史和未來的信息。

5. 深度學(xué)習(xí)

深度學(xué)習(xí)指的是深度神經(jīng)網(wǎng)絡(luò)模型，一般指網(wǎng)絡(luò)層數(shù)在三層或者三層以上的神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)。

理論上而言，參數(shù)越多的模型復(fù)雜度越高，“容量”也就越大，也就意味著它能完成更復(fù)雜的學(xué)習(xí)任務(wù)。就像前面多層感知機帶給我們的啟示一樣，神經(jīng)網(wǎng)絡(luò)的層數(shù)直接決定了它對現(xiàn)實的刻畫能力。但是在一般情況下，復(fù)雜模型的訓(xùn)練效率低，易陷入過擬合，因此難以受到人們的青睞。具體來講就是，隨著神經(jīng)網(wǎng)絡(luò)層數(shù)的加深，優(yōu)化函數(shù)越來越容易陷入局部最優(yōu)解（即過擬合，在訓(xùn)練樣本上有很好的擬合效果，但是在測試集上效果很差）。同時，不可忽略的一個問題是隨著網(wǎng)絡(luò)層數(shù)增加，“梯度消失”（或者說是梯度發(fā)散diverge）現(xiàn)象更加嚴(yán)重。我們經(jīng)常使用sigmoid函數(shù)作為隱含層的功能神經(jīng)元，對于幅度為1的信號，在BP反向傳播梯度時，每傳遞一層，梯度衰減為原來的0.25。層數(shù)一多，梯度指數(shù)衰減后低層基本接收不到有效的訓(xùn)練信號。

為了解決深層神經(jīng)網(wǎng)絡(luò)的訓(xùn)練問題，一種有效的手段是采取無監(jiān)督逐層訓(xùn)練（unsupervised layer-wise training），其基本思想是每次訓(xùn)練一層隱節(jié)點，訓(xùn)練時將上一層隱節(jié)點的輸出作為輸入，而本層隱節(jié)點的輸出作為下一層隱節(jié)點的輸入，這被稱之為“預(yù)訓(xùn)練”（pre-training）；在預(yù)訓(xùn)練完成后，再對整個網(wǎng)絡(luò)進行“微調(diào)”（fine-tunning）訓(xùn)練。比如Hinton在深度信念網(wǎng)絡(luò)（Deep Belief Networks，簡稱DBN）中，每層都是一個RBM，即整個網(wǎng)絡(luò)可以被視為是若干個RBM堆疊而成。在使用無監(jiān)督訓(xùn)練時，首先訓(xùn)練第一層，這是關(guān)于訓(xùn)練樣本的RBM模型，可按標(biāo)準(zhǔn)的RBM進行訓(xùn)練；然后，將第一層預(yù)訓(xùn)練號的隱節(jié)點視為第二層的輸入節(jié)點，對第二層進行預(yù)訓(xùn)練；... 各層預(yù)訓(xùn)練完成后，再利用BP算法對整個網(wǎng)絡(luò)進行訓(xùn)練。

事實上，“預(yù)訓(xùn)練+微調(diào)”的訓(xùn)練方式可被視為是將大量參數(shù)分組，對每組先找到局部看起來較好的設(shè)置，然后再基于這些局部較優(yōu)的結(jié)果聯(lián)合起來進行全局尋優(yōu)。這樣就在利用了模型大量參數(shù)所提供的自由度的同時，有效地節(jié)省了訓(xùn)練開銷。

另一種節(jié)省訓(xùn)練開銷的做法是進行“權(quán)共享”（weight sharing），即讓一組神經(jīng)元使用相同的連接權(quán)，這個策略在卷積神經(jīng)網(wǎng)絡(luò)（Convolutional Neural Networks，簡稱CNN）中發(fā)揮了重要作用。下圖為一個CNN網(wǎng)絡(luò)示意圖：

CNN可以用BP算法進行訓(xùn)練，但是在訓(xùn)練中，無論是卷積層還是采樣層，其每組神經(jīng)元（即上圖中的每一個“平面”）都是用相同的連接權(quán)，從而大幅減少了需要訓(xùn)練的參數(shù)數(shù)目。

6. 參考內(nèi)容

1. 周志華《機器學(xué)習(xí)》

2. 知乎問答：http://www.zhihu.com/question/34681168

歡迎加入本站公開興趣群

商業(yè)智能與數(shù)據(jù)分析群

興趣范圍包括各種讓數(shù)據(jù)產(chǎn)生價值的辦法，實際應(yīng)用案例分享與討論，分析工具，ETL工具，數(shù)據(jù)倉庫，數(shù)據(jù)挖掘工具，報表系統(tǒng)等全方位知識

QQ群：81035754

GPU云服務(wù)器云服務(wù)器神經(jīng)網(wǎng)絡(luò) 人工神經(jīng)網(wǎng)絡(luò) 神經(jīng)網(wǎng)絡(luò)法神經(jīng)網(wǎng)絡(luò)控制

文章版權(quán)歸作者所有，未經(jīng)允許請勿轉(zhuǎn)載,若此文章存在違規(guī)行為，您可以聯(lián)系管理員刪除。

轉(zhuǎn)載請注明本文地址：http://systransis.cn/yun/4356.html

發(fā)表評論

登陸后可評論

0條評論

starsfun

男|高級講師

我要關(guān)注我要私信

TA的文章

基于主機名的虛擬主機服務(wù)怎么實現(xiàn)-虛擬主機怎么登陸圖解？

閱讀 1538·2021-09-22 15:35
LAMP Web一鍵安裝腳本 – Linux服務(wù)器安裝Apache/MySQL/PHP網(wǎng)站環(huán)境

閱讀 2017·2021-09-14 18:04
字蛛font-spider報錯,<web font not found>,碰到的最新問題

閱讀 891·2019-08-30 15:55
布局總結(jié)-水平居中布局的實現(xiàn)

閱讀 2460·2019-08-30 15:53
兩列自適應(yīng)布局方案整理

閱讀 2689·2019-08-30 12:45
JavaScript的數(shù)據(jù)類型及其檢測

閱讀 1210·2019-08-29 17:01
前端面試題1（HTML篇）

閱讀 2589·2019-08-29 15:30
偽類和偽元素的區(qū)別

閱讀 3523·2019-08-29 15:09

成人国产在线小视频_日韩寡妇人妻调教在线播放_色成人www永久在线观看_2018国产精品久久_亚洲欧美高清在线30p_亚洲少妇综合一区_黄色在线播放国产_亚洲另类技巧小说校园_国产主播xx日韩_a级毛片在线免费

資訊專欄INFORMATION COLUMN

上云采購季！| 2核2G4M爆款云服務(wù)器低至59元/年，更有多臺、長期優(yōu)惠，快來選購！

神經(jīng)網(wǎng)絡(luò)基礎(chǔ)

相關(guān)文章

**DeepMind新成果：通過刪除神經(jīng)元來理解深度學(xué)習(xí)**

深度學(xué)習(xí)的關(guān)鍵術(shù)語

**卷積神經(jīng)網(wǎng)絡(luò)架構(gòu)詳解：它與神經(jīng)網(wǎng)絡(luò)有何不同？**

發(fā)表評論

0條評論

starsfun

男|高級講師

TA的文章

基于主機名的虛擬主機服務(wù)怎么實現(xiàn)-虛擬主機怎么登陸圖解？

LAMP Web一鍵安裝腳本 – Linux服務(wù)器安裝Apache/MySQL/PHP網(wǎng)站環(huán)境

字蛛font-spider報錯,<web font not found>,碰到的最新問題

布局總結(jié)-水平居中布局的實現(xiàn)

兩列自適應(yīng)布局方案整理

JavaScript的數(shù)據(jù)類型及其檢測

前端面試題1（HTML篇）

偽類和偽元素的區(qū)別

最新活動

資訊專欄INFORMATION COLUMN

上云采購季！| 2核2G4M爆款云服務(wù)器低至59元/年，更有多臺、長期優(yōu)惠，快來選購！

神經(jīng)網(wǎng)絡(luò)基礎(chǔ)

相關(guān)文章

發(fā)表評論

0條評論

男|高級講師

TA的文章

最新活動

上云采購季！| 2核2G4M爆款云服務(wù)器低至59元/年，更有多臺、長期優(yōu)惠，快來選購！