摘要:要學(xué)習(xí)深度學(xué)習(xí),那么首先要熟悉神經(jīng)網(wǎng)絡(luò),簡稱的一些基本概念。網(wǎng)絡(luò)徑向基函數(shù)網(wǎng)絡(luò)是一種單隱層前饋神經(jīng)網(wǎng)絡(luò),它使用徑向基函數(shù)作為隱層神經(jīng)元激活函數(shù),而輸出層則是對隱層神經(jīng)元輸出的線性組合。
閱讀目錄
1. 神經(jīng)元模型
2. 感知機和神經(jīng)網(wǎng)絡(luò)
3. 誤差逆?zhèn)鞑ニ惴?/p>
4. 常見的神經(jīng)網(wǎng)絡(luò)模型
5. 深度學(xué)習(xí)
6. 參考內(nèi)容
目前,深度學(xué)習(xí)(Deep Learning,簡稱DL)在算法領(lǐng)域可謂是大紅大紫,現(xiàn)在不只是互聯(lián)網(wǎng)、人工智能,生活中的各大領(lǐng)域都能反映出深度學(xué)習(xí)引領(lǐng)的巨大變革。要學(xué)習(xí)深度學(xué)習(xí),那么首先要熟悉神經(jīng)網(wǎng)絡(luò)(Neural Networks,簡稱NN)的一些基本概念。當(dāng)然,這里所說的神經(jīng)網(wǎng)絡(luò)不是生物學(xué)的神經(jīng)網(wǎng)絡(luò),我們將其稱之為人工神經(jīng)網(wǎng)絡(luò)(Artificial Neural Networks,簡稱ANN)貌似更為合理。神經(jīng)網(wǎng)絡(luò)最早是人工智能領(lǐng)域的一種算法或者說是模型,目前神經(jīng)網(wǎng)絡(luò)已經(jīng)發(fā)展成為一類多學(xué)科交叉的學(xué)科領(lǐng)域,它也隨著深度學(xué)習(xí)取得的進展重新受到重視和推崇。
為什么說是“重新”呢?其實,神經(jīng)網(wǎng)絡(luò)更為一種算法模型很早就已經(jīng)開始研究了,但是在取得一些進展后,神經(jīng)網(wǎng)絡(luò)的研究陷入了一段很長時間的低潮期,后來隨著Hinton在深度學(xué)習(xí)上取得的進展,神經(jīng)網(wǎng)絡(luò)又再次受到人們的重視。本文就以神經(jīng)網(wǎng)絡(luò)為主,著重總結(jié)一些相關(guān)的基礎(chǔ)知識,然后在此基礎(chǔ)上引出深度學(xué)習(xí)的概念,如有書寫不當(dāng)?shù)牡胤?,還請大家評批指正。
1. 神經(jīng)元模型
神經(jīng)元是神經(jīng)網(wǎng)絡(luò)中最基本的結(jié)構(gòu),也可以說是神經(jīng)網(wǎng)絡(luò)的基本單元,它的設(shè)計靈感完全來源于生物學(xué)上神經(jīng)元的信息傳播機制。我們學(xué)過生物的同學(xué)都知道,神經(jīng)元有兩種狀態(tài):興奮和抑制。一般情況下,大多數(shù)的神經(jīng)元是處于抑制狀態(tài),但是一旦某個神經(jīng)元收到刺激,導(dǎo)致它的電位超過一個閾值,那么這個神經(jīng)元就會被激活,處于“興奮”狀態(tài),進而向其他的神經(jīng)元傳播化學(xué)物質(zhì)(其實就是信息)。
下圖為生物學(xué)上的神經(jīng)元結(jié)構(gòu)示意圖:
1943年,McCulloch和Pitts將上圖的神經(jīng)元結(jié)構(gòu)用一種簡單的模型進行了表示,構(gòu)成了一種人工神經(jīng)元模型,也就是我們現(xiàn)在經(jīng)常用到的“M-P神經(jīng)元模型”,如下圖所示:
從上圖M-P神經(jīng)元模型可以看出,神經(jīng)元的輸出
其中θ為我們之前提到的神經(jīng)元的激活閾值,函數(shù)f(?)也被稱為是激活函數(shù)。如上圖所示,函數(shù)f(?)可以用一個階躍方程表示,大于閾值激活;否則則抑制。但是這樣有點太粗暴,因為階躍函數(shù)不光滑,不連續(xù),不可導(dǎo),因此我們更常用的方法是用sigmoid函數(shù)來表示函數(shù)函數(shù)f(?)。
sigmoid函數(shù)的表達式和分布圖如下所示:
2. 感知機和神經(jīng)網(wǎng)絡(luò)
感知機(perceptron)是由兩層神經(jīng)元組成的結(jié)構(gòu),輸入層用于接受外界輸入信號,輸出層(也被稱為是感知機的功能層)就是M-P神經(jīng)元。下圖表示了一個輸入層具有三個神經(jīng)元(分別表示為x0、x1、x2)的感知機結(jié)構(gòu):
根據(jù)上圖不難理解,感知機模型可以由如下公式表示:
? ? ? ? ? ? ? ? ? ? ? ? y=f(wx+b)
其中,w為感知機輸入層到輸出層連接的權(quán)重,b表示輸出層的偏置。事實上,感知機是一種判別式的線性分類模型,可以解決與、或、非這樣的簡單的線性可分(linearly separable)問題,線性可分問題的示意圖見下圖:
但是由于它只有一層功能神經(jīng)元,所以學(xué)習(xí)能力非常有限。事實證明,單層感知機無法解決最簡單的非線性可分問題——異或問題。
關(guān)于感知機解決異或問題還有一段歷史值得我們簡單去了解一下:感知器只能做簡單的線性分類任務(wù)。但是當(dāng)時的人們熱情太過于高漲,并沒有人清醒的認(rèn)識到這點。于是,當(dāng)人工智能領(lǐng)域的巨擘Minsky指出這點時,事態(tài)就發(fā)生了變化。Minsky在1969年出版了一本叫《Perceptron》的書,里面用詳細(xì)的數(shù)學(xué)證明了感知器的弱點,尤其是感知器對XOR(異或)這樣的簡單分類任務(wù)都無法解決。Minsky認(rèn)為,如果將計算層增加到兩層,計算量則過大,而且沒有有效的學(xué)習(xí)算法。所以,他認(rèn)為研究更深層的網(wǎng)絡(luò)是沒有價值的。由于Minsky的巨大影響力以及書中呈現(xiàn)的悲觀態(tài)度,讓很多學(xué)者和實驗室紛紛放棄了神經(jīng)網(wǎng)絡(luò)的研究。神經(jīng)網(wǎng)絡(luò)的研究陷入了冰河期。這個時期又被稱為“AI winter”。接近10年以后,對于兩層神經(jīng)網(wǎng)絡(luò)的研究才帶來神經(jīng)網(wǎng)絡(luò)的復(fù)蘇。
我們知道,我們?nèi)粘I钪泻芏鄦栴},甚至說大多數(shù)問題都不是線性可分問題,那我們要解決非線性可分問題該怎樣處理呢?這就是這部分我們要引出的“多層”的概念。既然單層感知機解決不了非線性問題,那我們就采用多層感知機,下圖就是一個兩層感知機解決異或問題的示意圖:
構(gòu)建好上述網(wǎng)絡(luò)以后,通過訓(xùn)練得到最后的分類面如下:
由此可見,多層感知機可以很好的解決非線性可分問題,我們通常將多層感知機這樣的多層結(jié)構(gòu)稱之為是神經(jīng)網(wǎng)絡(luò)。但是,正如Minsky之前所擔(dān)心的,多層感知機雖然可以在理論上可以解決非線性問題,但是實際生活中問題的復(fù)雜性要遠(yuǎn)不止異或問題這么簡單,所以我們往往要構(gòu)建多層網(wǎng)絡(luò),而對于多層神經(jīng)網(wǎng)絡(luò)采用什么樣的學(xué)習(xí)算法又是一項巨大的挑戰(zhàn),如下圖所示的具有4層隱含層的網(wǎng)絡(luò)結(jié)構(gòu)中至少有33個參數(shù)(不計偏置bias參數(shù)),我們應(yīng)該如何去確定呢?
3. 誤差逆?zhèn)鞑ニ惴?/p>
所謂神經(jīng)網(wǎng)絡(luò)的訓(xùn)練或者是學(xué)習(xí),其主要目的在于通過學(xué)習(xí)算法得到神經(jīng)網(wǎng)絡(luò)解決指定問題所需的參數(shù),這里的參數(shù)包括各層神經(jīng)元之間的連接權(quán)重以及偏置等。因為作為算法的設(shè)計者(我們),我們通常是根據(jù)實際問題來構(gòu)造出網(wǎng)絡(luò)結(jié)構(gòu),參數(shù)的確定則需要神經(jīng)網(wǎng)絡(luò)通過訓(xùn)練樣本和學(xué)習(xí)算法來迭代找到最優(yōu)參數(shù)組。
說起神經(jīng)網(wǎng)絡(luò)的學(xué)習(xí)算法,不得不提其中最杰出、最成功的代表——誤差逆?zhèn)鞑ィ╡rror BackPropagation,簡稱BP)算法。BP學(xué)習(xí)算法通常用在更為廣泛使用的多層前饋神經(jīng)網(wǎng)絡(luò)中。
4. 常見的神經(jīng)網(wǎng)絡(luò)模型
4.1 Boltzmann機和受限Boltzmann機
神經(jīng)網(wǎng)絡(luò)中有一類模型是為網(wǎng)絡(luò)狀態(tài)定義一個“能量”,能量最小化時網(wǎng)絡(luò)達到理想狀態(tài),而網(wǎng)絡(luò)的訓(xùn)練就是在最小化這個能量函數(shù)。Boltzmann(玻爾茲曼)機就是基于能量的模型,其神經(jīng)元分為兩層:顯層和隱層。顯層用于表示數(shù)據(jù)的輸入和輸出,隱層則被理解為數(shù)據(jù)的內(nèi)在表達。Boltzmann機的神經(jīng)元都是布爾型的,即只能取0、1值。標(biāo)準(zhǔn)的Boltzmann機是全連接的,也就是說各層內(nèi)的神經(jīng)元都是相互連接的,因此計算復(fù)雜度很高,而且難以用來解決實際問題。因此,我們經(jīng)常使用一種特殊的Boltzmann機——受限玻爾茲曼機(Restricted Boltzmann Mechine,簡稱RBM),它層內(nèi)無連接,層間有連接,可以看做是一個二部圖。下圖為Boltzmann機和RBM的結(jié)構(gòu)示意圖:
RBM常常用對比散度(Constrastive Divergence,簡稱CD)來進行訓(xùn)練。
4.2 RBF網(wǎng)絡(luò)
RBF(Radial Basis Function)徑向基函數(shù)網(wǎng)絡(luò)是一種單隱層前饋神經(jīng)網(wǎng)絡(luò),它使用徑向基函數(shù)作為隱層神經(jīng)元激活函數(shù),而輸出層則是對隱層神經(jīng)元輸出的線性組合。下圖為一個RBF神經(jīng)網(wǎng)絡(luò)示意圖:
訓(xùn)練RBF網(wǎng)絡(luò)通常采用兩步:
1> 確定神經(jīng)元中心,常用的方式包括隨機采樣,聚類等;
2> 確定神經(jīng)網(wǎng)絡(luò)參數(shù),常用算法為BP算法。
4.3 ART網(wǎng)絡(luò)
ART(Adaptive Resonance Theory)自適應(yīng)諧振理論網(wǎng)絡(luò)是競爭型學(xué)習(xí)的重要代表,該網(wǎng)絡(luò)由比較層、識別層、識別層閾值和重置模塊構(gòu)成。ART比較好的緩解了競爭型學(xué)習(xí)中的“可塑性-穩(wěn)定性窘境”(stability-plasticity dilemma),可塑性是指神經(jīng)網(wǎng)絡(luò)要有學(xué)習(xí)新知識的能力,而穩(wěn)定性則指的是神經(jīng)網(wǎng)絡(luò)在學(xué)習(xí)新知識時要保持對舊知識的記憶。這就使得ART網(wǎng)絡(luò)具有一個很重要的優(yōu)點:可進行增量學(xué)習(xí)或在線學(xué)習(xí)。
4.4 SOM網(wǎng)絡(luò)
SOM(Self-Organizing Map,自組織映射)網(wǎng)絡(luò)是一種競爭學(xué)習(xí)型的無監(jiān)督神經(jīng)網(wǎng)絡(luò),它能將高維輸入數(shù)據(jù)映射到低維空間(通常為二維),同事保持輸入數(shù)據(jù)在高維空間的拓?fù)浣Y(jié)構(gòu),即將高維空間中相似的樣本點映射到網(wǎng)絡(luò)輸出層中的臨近神經(jīng)元。下圖為SOM網(wǎng)絡(luò)的結(jié)構(gòu)示意圖:
4.5 結(jié)構(gòu)自適應(yīng)網(wǎng)絡(luò)
我們前面提到過,一般的神經(jīng)網(wǎng)絡(luò)都是先指定好網(wǎng)絡(luò)結(jié)構(gòu),訓(xùn)練的目的是利用訓(xùn)練樣本來確定合適的連接權(quán)、閾值等參數(shù)。與此不同的是,結(jié)構(gòu)自適應(yīng)網(wǎng)絡(luò)則將網(wǎng)絡(luò)結(jié)構(gòu)也當(dāng)做學(xué)習(xí)的目標(biāo)之一,并希望在訓(xùn)練過程中找到最符合數(shù)據(jù)特點的網(wǎng)絡(luò)結(jié)構(gòu)。
4.6 遞歸神經(jīng)網(wǎng)絡(luò)以及Elman網(wǎng)絡(luò)
與前饋神經(jīng)網(wǎng)絡(luò)不同,遞歸神經(jīng)網(wǎng)絡(luò)(Recurrent Neural Networks,簡稱RNN)允許網(wǎng)絡(luò)中出現(xiàn)環(huán)形結(jié)構(gòu),從而可以讓一些神經(jīng)元的輸出反饋回來作為輸入信號,這樣的結(jié)構(gòu)與信息反饋過程,使得網(wǎng)絡(luò)在tt時刻的輸出狀態(tài)不僅與tt時刻的輸入有關(guān),還與t?1時刻的網(wǎng)絡(luò)狀態(tài)有關(guān),從而能處理與時間有關(guān)的動態(tài)變化。
Elman網(wǎng)絡(luò)是最常用的遞歸神經(jīng)網(wǎng)絡(luò)之一,其結(jié)構(gòu)如下圖所示:
RNN一般的訓(xùn)練算法采用推廣的BP算法。值得一提的是,RNN在(t+1)時刻網(wǎng)絡(luò)的結(jié)果O(t+1)是該時刻輸入和所有歷史共同作用的結(jié)果,這樣就達到了對時間序列建模的目的。因此,從某種意義上來講,RNN被視為是時間深度上的深度學(xué)習(xí)也未嘗不對。
RNN在(t+1)時刻網(wǎng)絡(luò)的結(jié)果O(t+1)是該時刻輸入和所有歷史共同作用的結(jié)果,這么講其實也不是很準(zhǔn)確,因為“梯度發(fā)散”同樣也會發(fā)生在時間軸上,也就是說對于t時刻來說,它產(chǎn)生的梯度在時間軸上向歷史傳播幾層之后就消失了,根本無法影響太遙遠(yuǎn)的過去。因此,“所有的歷史”只是理想的情況。在實際中,這種影響也就只能維持若干個時間戳而已。換句話說,后面時間步的錯誤信號,往往并不能回到足夠遠(yuǎn)的過去,像更早的時間步一樣,去影響網(wǎng)絡(luò),這使它很難以學(xué)習(xí)遠(yuǎn)距離的影響。
為了解決上述時間軸上的梯度發(fā)散,機器學(xué)習(xí)領(lǐng)域發(fā)展出了長短時記憶單元(Long-Short Term Memory,簡稱LSTM),通過門的開關(guān)實現(xiàn)時間上的記憶功能,并防止梯度發(fā)散。其實除了學(xué)習(xí)歷史信息,RNN和LSTM還可以被設(shè)計成為雙向結(jié)構(gòu),即雙向RNN、雙向LSTM,同時利用歷史和未來的信息。
5. 深度學(xué)習(xí)
深度學(xué)習(xí)指的是深度神經(jīng)網(wǎng)絡(luò)模型,一般指網(wǎng)絡(luò)層數(shù)在三層或者三層以上的神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)。
理論上而言,參數(shù)越多的模型復(fù)雜度越高,“容量”也就越大,也就意味著它能完成更復(fù)雜的學(xué)習(xí)任務(wù)。就像前面多層感知機帶給我們的啟示一樣,神經(jīng)網(wǎng)絡(luò)的層數(shù)直接決定了它對現(xiàn)實的刻畫能力。但是在一般情況下,復(fù)雜模型的訓(xùn)練效率低,易陷入過擬合,因此難以受到人們的青睞。具體來講就是,隨著神經(jīng)網(wǎng)絡(luò)層數(shù)的加深,優(yōu)化函數(shù)越來越容易陷入局部最優(yōu)解(即過擬合,在訓(xùn)練樣本上有很好的擬合效果,但是在測試集上效果很差)。同時,不可忽略的一個問題是隨著網(wǎng)絡(luò)層數(shù)增加,“梯度消失”(或者說是梯度發(fā)散diverge)現(xiàn)象更加嚴(yán)重。我們經(jīng)常使用sigmoid函數(shù)作為隱含層的功能神經(jīng)元,對于幅度為1的信號,在BP反向傳播梯度時,每傳遞一層,梯度衰減為原來的0.25。層數(shù)一多,梯度指數(shù)衰減后低層基本接收不到有效的訓(xùn)練信號。
為了解決深層神經(jīng)網(wǎng)絡(luò)的訓(xùn)練問題,一種有效的手段是采取無監(jiān)督逐層訓(xùn)練(unsupervised layer-wise training),其基本思想是每次訓(xùn)練一層隱節(jié)點,訓(xùn)練時將上一層隱節(jié)點的輸出作為輸入,而本層隱節(jié)點的輸出作為下一層隱節(jié)點的輸入,這被稱之為“預(yù)訓(xùn)練”(pre-training);在預(yù)訓(xùn)練完成后,再對整個網(wǎng)絡(luò)進行“微調(diào)”(fine-tunning)訓(xùn)練。比如Hinton在深度信念網(wǎng)絡(luò)(Deep Belief Networks,簡稱DBN)中,每層都是一個RBM,即整個網(wǎng)絡(luò)可以被視為是若干個RBM堆疊而成。在使用無監(jiān)督訓(xùn)練時,首先訓(xùn)練第一層,這是關(guān)于訓(xùn)練樣本的RBM模型,可按標(biāo)準(zhǔn)的RBM進行訓(xùn)練;然后,將第一層預(yù)訓(xùn)練號的隱節(jié)點視為第二層的輸入節(jié)點,對第二層進行預(yù)訓(xùn)練;... 各層預(yù)訓(xùn)練完成后,再利用BP算法對整個網(wǎng)絡(luò)進行訓(xùn)練。
事實上,“預(yù)訓(xùn)練+微調(diào)”的訓(xùn)練方式可被視為是將大量參數(shù)分組,對每組先找到局部看起來較好的設(shè)置,然后再基于這些局部較優(yōu)的結(jié)果聯(lián)合起來進行全局尋優(yōu)。這樣就在利用了模型大量參數(shù)所提供的自由度的同時,有效地節(jié)省了訓(xùn)練開銷。
另一種節(jié)省訓(xùn)練開銷的做法是進行“權(quán)共享”(weight sharing),即讓一組神經(jīng)元使用相同的連接權(quán),這個策略在卷積神經(jīng)網(wǎng)絡(luò)(Convolutional Neural Networks,簡稱CNN)中發(fā)揮了重要作用。下圖為一個CNN網(wǎng)絡(luò)示意圖:
CNN可以用BP算法進行訓(xùn)練,但是在訓(xùn)練中,無論是卷積層還是采樣層,其每組神經(jīng)元(即上圖中的每一個“平面”)都是用相同的連接權(quán),從而大幅減少了需要訓(xùn)練的參數(shù)數(shù)目。
6. 參考內(nèi)容
1. 周志華《機器學(xué)習(xí)》
2. 知乎問答:http://www.zhihu.com/question/34681168
歡迎加入本站公開興趣群商業(yè)智能與數(shù)據(jù)分析群
興趣范圍包括各種讓數(shù)據(jù)產(chǎn)生價值的辦法,實際應(yīng)用案例分享與討論,分析工具,ETL工具,數(shù)據(jù)倉庫,數(shù)據(jù)挖掘工具,報表系統(tǒng)等全方位知識
QQ群:81035754
文章版權(quán)歸作者所有,未經(jīng)允許請勿轉(zhuǎn)載,若此文章存在違規(guī)行為,您可以聯(lián)系管理員刪除。
轉(zhuǎn)載請注明本文地址:http://systransis.cn/yun/4356.html
摘要:近日,發(fā)布了其關(guān)于神經(jīng)網(wǎng)絡(luò)可解釋性的研究成果,他們通過刪除網(wǎng)絡(luò)中的某些神經(jīng)元組,從而判定其對于整個網(wǎng)絡(luò)是否重要。泛化性良好的網(wǎng)絡(luò)對于刪除神經(jīng)元的操作更具適應(yīng)性。通過刪除單個神經(jīng)元和神經(jīng)元組,我們測量了破壞網(wǎng)絡(luò)對性能的影響。 深度學(xué)習(xí)算法近年來取得了長足的進展,也給整個人工智能領(lǐng)域送上了風(fēng)口。但深度學(xué)習(xí)系統(tǒng)中分類器和特征模塊都是自學(xué)習(xí)的,神經(jīng)網(wǎng)絡(luò)的可解釋性成為困擾研究者的一個問題,人們常常將其...
摘要:摘要本文著重介紹了深度學(xué)習(xí)的一些關(guān)鍵術(shù)語,其中包括生物神經(jīng)元,多層感知器,前饋神經(jīng)網(wǎng)絡(luò)和遞歸神經(jīng)網(wǎng)絡(luò)。深度學(xué)習(xí)最近取得了令人吃驚的成就。人工神經(jīng)網(wǎng)絡(luò)機器學(xué)習(xí)架構(gòu)最初是由深度學(xué)習(xí)的腦神經(jīng)尤其是神經(jīng)元所啟發(fā)的。 摘要: 本文著重介紹了深度學(xué)習(xí)的一些關(guān)鍵術(shù)語,其中包括生物神經(jīng)元,多層感知器(MLP),前饋神經(jīng)網(wǎng)絡(luò)和遞歸神經(jīng)網(wǎng)絡(luò)。對于初學(xué)者來說,掌握它們可以防止在學(xué)習(xí)請教時的尷尬~ 深度學(xué)習(xí)已...
摘要:較大池化一個卷積神經(jīng)網(wǎng)絡(luò)的典型架構(gòu)卷積神經(jīng)網(wǎng)絡(luò)的典型架構(gòu)我們已經(jīng)討論過卷積層用表示和池化層用表示只是一個被應(yīng)用的非線性特征,類似于神經(jīng)網(wǎng)絡(luò)。 這是作者在 Medium 上介紹神經(jīng)網(wǎng)絡(luò)系列文章中的一篇,他在這里詳細(xì)介紹了卷積神經(jīng)網(wǎng)絡(luò)。卷積神經(jīng)網(wǎng)絡(luò)在圖像識別、視頻識別、推薦系統(tǒng)以及自然語言處理中都有很廣的應(yīng)用。如果想瀏覽該系列文章,可點擊閱讀原文查看原文網(wǎng)址。跟神經(jīng)網(wǎng)絡(luò)一樣,卷積神經(jīng)網(wǎng)絡(luò)由神經(jīng)元...
閱讀 1538·2021-09-22 15:35
閱讀 2017·2021-09-14 18:04
閱讀 891·2019-08-30 15:55
閱讀 2460·2019-08-30 15:53
閱讀 2689·2019-08-30 12:45
閱讀 1210·2019-08-29 17:01
閱讀 2589·2019-08-29 15:30
閱讀 3523·2019-08-29 15:09