摘要:機(jī)器學(xué)習(xí)系統(tǒng)被用來識(shí)別圖像中的物體將語音轉(zhuǎn)為文本,根據(jù)用戶興趣自動(dòng)匹配新聞消息或產(chǎn)品,挑選相關(guān)搜索結(jié)果。而深度學(xué)習(xí)的出現(xiàn),讓這些問題的解決邁出了至關(guān)重要的步伐。這就是深度學(xué)習(xí)的重要優(yōu)勢。
借助深度學(xué)習(xí),多處理層組成的計(jì)算模型可通過多層抽象來學(xué)習(xí)數(shù)據(jù)表征( representations)。這些方法顯著推動(dòng)了語音識(shí)別、視覺識(shí)別、目標(biāo)檢測以及許多其他領(lǐng)域(比如,藥物發(fā)現(xiàn)以及基因組學(xué))的技術(shù)發(fā)展。利用反向傳播算法(backpropagation algorithm)來顯示機(jī)器將會(huì)如何根據(jù)前一層的表征改變用以計(jì)算每層表征的內(nèi)部參數(shù),深度學(xué)習(xí)發(fā)現(xiàn)了大數(shù)據(jù)集的復(fù)雜結(jié)構(gòu)。深層卷積網(wǎng)絡(luò)(deep convolutional nets)為圖像、視頻和音頻等數(shù)據(jù)處理上帶來突破性進(jìn)展,而遞歸網(wǎng)絡(luò)(recurrent nets )也給序列數(shù)據(jù)(諸如文本、語言)的處理帶來曙光。
機(jī)器學(xué)習(xí)為現(xiàn)代生活諸多方面帶來巨大動(dòng)力:從網(wǎng)頁搜索到社交網(wǎng)絡(luò)內(nèi)容過濾再到電商網(wǎng)商推薦,在相機(jī)、智能手機(jī)等消費(fèi)品中也越來越多見。機(jī)器學(xué)習(xí)系統(tǒng)被用來識(shí)別圖像中的物體、將語音轉(zhuǎn)為文本,根據(jù)用戶興趣自動(dòng)匹配新聞、消息或產(chǎn)品,挑選相關(guān)搜索結(jié)果。這類被應(yīng)用程序越來越多地采用的技術(shù),叫做深度學(xué)習(xí)。
傳統(tǒng)機(jī)器學(xué)習(xí)技術(shù)在處理原始輸入的自然數(shù)據(jù)方面能力有限。幾十年來,建構(gòu)模式識(shí)別或機(jī)器學(xué)習(xí)系統(tǒng)需要利用嚴(yán)謹(jǐn)?shù)墓こ虒W(xué)和相當(dāng)豐富的專業(yè)知識(shí)設(shè)計(jì)出一個(gè)特征提取器,它能將原始數(shù)據(jù)(例如圖像像素值)轉(zhuǎn)化成適于內(nèi)部描述或表征的向量( vector ),在提取器中,學(xué)習(xí)子系統(tǒng)(通常是一個(gè)分類器)可以檢測或分類輸入模式。
表征學(xué)習(xí)(representation learning)是這樣一套學(xué)習(xí)方法:輸入原始數(shù)據(jù)后,機(jī)器能夠自動(dòng)發(fā)現(xiàn)檢測或分類所需的表征信息。深度學(xué)習(xí)是一種多層描述的表征學(xué)習(xí),通過組合簡單、非線性模塊來實(shí)現(xiàn),每個(gè)模塊都會(huì)將最簡單的描述(從原始輸入開始)轉(zhuǎn)變成較高層、較為抽象的描述。通過積累足夠多的上述表征轉(zhuǎn)化,機(jī)器能學(xué)習(xí)非常復(fù)雜的函數(shù)。就分類任務(wù)來說,更高層的表征會(huì)放大輸入信號(hào)的特征,而這對(duì)區(qū)分和控制不相關(guān)變量非常關(guān)鍵。比如,圖片最初以像素值的方式出現(xiàn),第一特征層級(jí)中,機(jī)器習(xí)得的特征主要是圖像中特定方位、位置邊沿之有無。第二特征層級(jí)中,主要是通過發(fā)現(xiàn)特定安排的邊緣來檢測圖案,此時(shí)機(jī)器并不考慮邊沿位置的微小變化。第三層中會(huì)將局部圖像與物體相應(yīng)部分匹配,后續(xù)的層級(jí)將會(huì)通過把這些局部組合起來從而識(shí)別出整個(gè)物體。深度學(xué)習(xí)的關(guān)鍵之處在于:這些特征層級(jí)并非出自人類工程師之手;而是機(jī)器通過一個(gè)通用(general-purpose)學(xué)習(xí)程序,從大量數(shù)據(jù)中自學(xué)得出。
某些根深蒂固的問題困擾了人工智能從業(yè)者許多年,以至于人們最出色的嘗試都無功而返。而深度學(xué)習(xí)的出現(xiàn),讓這些問題的解決邁出了至關(guān)重要的步伐。深度學(xué)習(xí)善于在高維度的數(shù)據(jù)中摸索出錯(cuò)綜復(fù)雜的結(jié)構(gòu),因此能應(yīng)用在許多不同的領(lǐng)域,比如科學(xué)、商業(yè)和政府。此外,除了圖像識(shí)別和語音識(shí)別,它還在許多方面擊敗了其他機(jī)器學(xué)習(xí)技術(shù),比如預(yù)測潛在藥物分子的活性、分析粒子加速器的數(shù)據(jù)、重構(gòu)大腦回路、預(yù)測非編碼DNA的突變對(duì)基因表達(dá)和疾病有何影響等。也許,最讓人驚訝的是,在自然語言理解方面,特別是話題分類、情感分析、問答系統(tǒng)和語言翻譯等不同的任務(wù)上,深度學(xué)習(xí)都展現(xiàn)出了無限光明的前景。
在不久的將來,我們認(rèn)為深度學(xué)習(xí)將取得更多成就,因?yàn)樗恍枰獦O少的人工參與,所以它能輕而易舉地從計(jì)算能力提升和數(shù)據(jù)量增長中獲得裨益。目前正在開發(fā)的用于深層神經(jīng)網(wǎng)絡(luò)的新型學(xué)習(xí)算法和體系結(jié)構(gòu)必將加速這一進(jìn)程。
監(jiān)督式學(xué)習(xí)
不管深度與否,機(jī)器學(xué)習(xí)最普遍的形式都是監(jiān)督式學(xué)習(xí)(supervised learning)。比如說,我們想構(gòu)造一個(gè)系統(tǒng),它能根據(jù)特定元素對(duì)圖片進(jìn)行分類,例如包含一棟房子、一輛車、一個(gè)人或一只寵物。首先,我們要收集大量包含有房子、車、人或?qū)櫸锏膱D片,組成一個(gè)數(shù)據(jù)集(data set),每張圖片都標(biāo)記有它的類別。在訓(xùn)練時(shí),每當(dāng)我們向機(jī)器展示一張圖片,機(jī)器就會(huì)輸出一個(gè)相應(yīng)類別的向量。我們希望的結(jié)果是:指定類別的分?jǐn)?shù)較高,高于其他所有類別。然而,如果不經(jīng)過訓(xùn)練,這將是不可能完成的任務(wù)。為此,我們通過一個(gè)目標(biāo)函數(shù)來計(jì)算實(shí)際輸出與期望輸出之間的誤差或距離。接下來,為了減小誤差,機(jī)器會(huì)對(duì)其內(nèi)部可調(diào)參數(shù)進(jìn)行調(diào)整。這些可調(diào)參數(shù)常被稱為「權(quán)重」(weight),是實(shí)數(shù),可看做定義機(jī)器輸入-輸出功能的「門把手」。在一個(gè)典型的深度學(xué)習(xí)系統(tǒng)中,可能存在著成千上億的可調(diào)權(quán)重及用以訓(xùn)練機(jī)器的標(biāo)記樣本。
為了正確地調(diào)整權(quán)重矢量( weight vector),學(xué)習(xí)算法會(huì)計(jì)算出一個(gè)梯度矢量( gradient vector)。對(duì)每一個(gè)權(quán)重,這個(gè)梯度矢量都能指示出,當(dāng)權(quán)重略微增減一點(diǎn)點(diǎn)時(shí),誤差會(huì)隨之增減多少量。接著,權(quán)重矢量就會(huì)往梯度矢量的反方向進(jìn)行調(diào)整。
從所有訓(xùn)練范例之上,平均看來,目標(biāo)函數(shù)( objective function)可被視為一片崎嶇的山地,坐落于由權(quán)重組成的高維空間。梯度矢量為負(fù)值的地方,意味著山地中最陡峭的下坡方向,一路接近最小值。這個(gè)最小值,也就是平均輸出誤差最小之處。
在實(shí)踐中,大多數(shù)業(yè)內(nèi)人士都是用一種被稱為「隨機(jī)梯度下降」(SGD - Stochastic Gradient Descent)的算法(梯度下降Grident Descent 是「最小化風(fēng)險(xiǎn)函數(shù)」以及「損失函數(shù)」的一種常用方法,「隨機(jī)梯度下降」是此類下的一種通過迭代求解的思路——譯者注)。每一次迭代包括以下幾個(gè)步驟:獲取一些樣本的輸入矢量( input vector),計(jì)算輸出結(jié)果和誤差,計(jì)算這些樣本的平均梯度,根據(jù)平均梯度調(diào)整相應(yīng)權(quán)重。這個(gè)過程在各個(gè)從整個(gè)訓(xùn)練集中抽取的小子集之上重復(fù),直到目標(biāo)函數(shù)的平均值停止下降。它被稱做隨機(jī)(Stochastic)是因?yàn)槊總€(gè)樣本組都會(huì)給出一個(gè)對(duì)于整個(gè)訓(xùn)練集( training set)的平均梯度(average gradient)的噪音估值(noisy estimate)。較于更加較精確的組合優(yōu)化技術(shù),這個(gè)簡單的方法通??梢陨衿娴乜焖俚卣页鲆粋€(gè)權(quán)重適當(dāng)?shù)臉颖咀蛹?。?xùn)練過后,系統(tǒng)的性能將在另外一組不同樣本(即測試集)上進(jìn)行驗(yàn)證,以期測試機(jī)器的泛化能力( generalization ability) ——面對(duì)訓(xùn)練中從未遇過的新輸入,機(jī)器能夠給出合理答案。
很多當(dāng)今機(jī)器學(xué)習(xí)的實(shí)際應(yīng)用都在人工設(shè)定的特征上使用「線性分類」(linear classifiers)。一個(gè)「二元線性分類器」(two-class linear classifier)可以計(jì)算出特征向量的「加權(quán)和」(weighted sum)。如果「加權(quán)和」高于閾值,該輸入樣本就被歸類于某個(gè)特定的類別。
二十世紀(jì)六十年代以來,我們就知道線性分類只能將輸入樣本劃分到非常簡單的區(qū)域中,即被超平面切分的半空間。但是,對(duì)于類似圖像及語音識(shí)別等問題,要求「輸入-輸出函數(shù)」(input–output function)必須對(duì)輸入樣本的無關(guān)變化不敏感,比如,圖片中物體的位置,方向或者物體上的裝飾圖案,又比如,聲音的音調(diào)或者口音;與此同時(shí)「輸入-輸出函數(shù)」又需要對(duì)某些細(xì)微差異特別敏感(比如,一匹白色的狼和一種長得很像狼的被稱作薩摩耶的狗)。兩只薩摩耶在不同的環(huán)境里擺著不同姿勢的照片從像素級(jí)別來說很可能會(huì)非常地不一樣,然而在類似背景下擺著同樣姿勢的一只薩摩耶和一只狼的照片在像素級(jí)別來說很可能會(huì)非常相像。一個(gè)「線性分類器」(linear classifier),或者其他基于原始像素操作的「淺層(shallow)」分類操作是無論如何也無法將后者中的兩只區(qū)分開,也無法將前者中的兩只分到同樣的類別里的。這也就是為什么「淺層」「分類器(classifiers)」需要一個(gè)可以出色地解決「選擇性-恒常性困境」( selectivity–invariance dilemma)的「特征提取器」(feature extractor)—— 提取出對(duì)于辨別圖片內(nèi)容有意義的信息,同時(shí)忽略不相關(guān)的信息,比如,動(dòng)物的姿勢。我們可以用一些常規(guī)的非線性特征來增強(qiáng)「分類器」(classifiers)的效果,比如「核方法」(kernel methods),但是,這些常規(guī)特征,比如「高斯核」(Gaussian Kernel)所找出來的那些,很難泛化( generalize )到與訓(xùn)練集差別別較大的輸入上。傳統(tǒng)的方法是人工設(shè)計(jì)好的「特征提取器」,這需要相當(dāng)?shù)墓こ碳记珊蛦栴}領(lǐng)域的專業(yè)知識(shí)。但是,如果好的「特征提取器」可以通過「通用學(xué)習(xí)程序(General-Purpose learning procedure)」完成自學(xué)習(xí),那么這些麻煩事兒就可以被避免了。這就是深度學(xué)習(xí)的重要優(yōu)勢。
圖1| 多層神經(jīng)網(wǎng)路和反向傳播。
a. 一個(gè)多層神經(jīng)網(wǎng)絡(luò)(如圖所示相互連接的點(diǎn))能夠整合(distort)輸入空間(圖中以紅線與藍(lán)線為例)讓數(shù)據(jù)變得線性可分。注意輸入空間的規(guī)則網(wǎng)格(左側(cè))如何轉(zhuǎn)被隱藏單元(中間)轉(zhuǎn)換的。例子只有兩個(gè)輸入單元、兩個(gè)隱藏單元和一個(gè)輸出單元,但事實(shí)上,用于對(duì)象識(shí)別和自然語言處理的網(wǎng)絡(luò)通常包含了數(shù)十或成千上萬個(gè)單元。(本節(jié)引用改寫自 C. Olah (http://colah.github.io/).) ?
b. 導(dǎo)數(shù)的鏈?zhǔn)椒▌t告訴我們,兩個(gè)微小增量(即x關(guān)于y的增量,以及y關(guān)于z的增量)是如何構(gòu)成的。x的增量Δx導(dǎo)致了y的增量Δy,這是通過乘以?y/?x來實(shí)現(xiàn)的(即偏導(dǎo)數(shù)的定義)。同樣,Δy的變化也會(huì)引起Δz的變化。用一個(gè)方程代替另一個(gè)方程引出了導(dǎo)數(shù)的鏈?zhǔn)椒▌t( the chain rule of derivatives),即增量Δx如何通過與?y/?x及 ?z/?x相乘使得z也發(fā)生增量Δz。當(dāng)x,y 和 z都是向量時(shí)這一規(guī)律也同樣適用(使用雅克比矩陣)。
c. 這個(gè)公式用于計(jì)算在包含著兩個(gè)隱層和一個(gè)輸出層的神經(jīng)網(wǎng)絡(luò)中的前向傳輸,每個(gè)層面的逆向傳遞梯度都構(gòu)成了一個(gè)模組。在每一層,我們首先計(jì)算面向每個(gè)單元的總輸入值z,即上一層的輸出單元的加權(quán)和;然后,通過將一個(gè)非線性函數(shù)f(.)應(yīng)用于z來得出這個(gè)單元的輸出。為了簡化流程,我們忽略掉一些閾值項(xiàng)(bias terms)。在神經(jīng)網(wǎng)絡(luò)中使用的非線性函數(shù)包含了近些年較為常用的校正線性單元(ReLU) f(z) = max(0,z),以及更傳統(tǒng)的 sigmoid函數(shù),比如,雙曲線正切函數(shù), f(z) = (exp(z) ? exp(?z))/(exp(z) + exp(?z)) 和 邏輯函數(shù)f(z) = 1/(1 + exp(?z)).
d. 該公式用于計(jì)算反向傳遞。在每一個(gè)隱藏層中,我們都會(huì)計(jì)算每個(gè)單元輸出的導(dǎo)數(shù)誤差,即上述層中上一層所有單元輸入的導(dǎo)數(shù)誤差的加權(quán)總和。 然后,將關(guān)于輸出的導(dǎo)數(shù)誤差乘以函數(shù)f(z)的梯度(gradient),得到關(guān)于輸入的導(dǎo)數(shù)誤差。 在輸出層中,通過對(duì)成本函數(shù)進(jìn)行微分計(jì)算,求得關(guān)于輸出單元的誤差導(dǎo)數(shù)。因此我們得出結(jié)論 yl - tl 如果對(duì)應(yīng)于單元l的成本函數(shù)是 0.5(yl - tl) 2 ?(注意tl是目標(biāo)值)。一旦?E/?zk已知,那么,就能通過yj ?E/?zk調(diào)整單元j的內(nèi)星權(quán)向量wjk。
圖2 | 卷積網(wǎng)絡(luò)的內(nèi)部。一個(gè)典型的卷積網(wǎng)絡(luò)架構(gòu)的每一層(水平)輸出(不是過濾器)應(yīng)用到一個(gè)薩摩耶犬的圖像(圖2左下方,RGB輸入(紅綠藍(lán)),下方右側(cè))。 每一個(gè)長方形圖片都是一張對(duì)應(yīng)于學(xué)習(xí)到的輸出特征的特征地圖,這些特征可以在圖片的各個(gè)位置被偵測到。信息流是從下往上的,低級(jí)的特征充作導(dǎo)向性邊際檢測因子( edge detectors),每個(gè)輸出圖像類都會(huì)被計(jì)算出一個(gè)分值。ReLU,整流線性單元。
深度學(xué)習(xí)架構(gòu)由簡單模組多層堆疊而成,全部(或絕大部分)模組都從事學(xué)習(xí),大部分會(huì)計(jì)算非線性的輸入輸出映射。堆疊架構(gòu)中的每個(gè)模組都會(huì)轉(zhuǎn)換它的輸入,同時(shí)增強(qiáng)可選擇性和所呈現(xiàn)狀態(tài)的一致性。 通過多個(gè)非線性層面(例如,深度5-20層),系統(tǒng)可以實(shí)現(xiàn)對(duì)于輸入數(shù)據(jù)的極其微小細(xì)節(jié)的敏感性功能 --- 例如,區(qū)別開白色的狼和薩摩耶犬 --- 并且對(duì)于較大的無關(guān)變量會(huì)不敏感(例如,主體周圍的環(huán)境、姿勢、光照條件和周圍物體。)
訓(xùn)練多層架構(gòu)的反向傳播算法
從最早的模式識(shí)別開始,研究者們就一直試圖用可訓(xùn)練的多層網(wǎng)絡(luò)代替人工設(shè)計(jì)特征,盡管這種解決方案很簡單,直到20世紀(jì)80年代中期,它才得到人們的廣泛認(rèn)可。事實(shí)證明,多層架構(gòu)可以通過簡單的隨機(jī)梯度下降法得以訓(xùn)練。只要模組是由它們的輸入值及其內(nèi)部權(quán)重構(gòu)成的相對(duì)平滑的函數(shù)(relatively smooth functions),人們就可以使用反向傳播算法來計(jì)算梯度。20世紀(jì)70至80年代,幾個(gè)不同的研究小組分別發(fā)現(xiàn)這一方法確實(shí)可行、有用。
計(jì)算一個(gè)目標(biāo)函數(shù)關(guān)于一個(gè)多層堆疊模組的權(quán)重梯度的反向傳播過程,只不過是導(dǎo)數(shù)鏈?zhǔn)椒▌t的一個(gè)實(shí)際應(yīng)用。其中關(guān)鍵之處在于,關(guān)于模組輸入值的函數(shù)的導(dǎo)數(shù)(或梯度),可以借助關(guān)于該模組的輸出值(或序列模組的輸入值)的梯度反向計(jì)算出來(圖1)。反向傳播方程可在所有模組中傳播梯度時(shí)被反復(fù)應(yīng)用,從頂部(top)(神經(jīng)網(wǎng)絡(luò)產(chǎn)生預(yù)測的那一層)輸出開始,一直到底部(bottom)(被接收外部輸入的那一層)。這些梯度一經(jīng)計(jì)算,就可直接計(jì)算出關(guān)于每個(gè)模組權(quán)重的梯度。
深度學(xué)習(xí)的許多應(yīng)用,都會(huì)使用前饋神經(jīng)網(wǎng)絡(luò)架構(gòu)( feedforward neural network architectures)(圖1)——該架構(gòu)可學(xué)習(xí)將一個(gè)固定大小的輸入映射到(例如,一幅圖像)到一個(gè)固定大小的輸出上(例如,每種分類的概率)。從一層到下一層,單元組計(jì)算其前一層輸入的加權(quán)總和,并通過一個(gè)非線性函數(shù)輸出結(jié)果。目前,更受歡迎的非線性函數(shù)是整流線性單元(ReLU),一個(gè)簡單的半波整流器f(z) = max(z, 0)。在過去的幾十年里,神經(jīng)網(wǎng)絡(luò)使用的是更平滑的非線性,比如,tanh(z)或1 /(1 + exp(?z)),但ReLU在多層網(wǎng)絡(luò)中的學(xué)習(xí)速度通常更快,可允許在沒有無監(jiān)督預(yù)訓(xùn)練(without unsupervised pre-training)的情況下進(jìn)行深度監(jiān)督網(wǎng)絡(luò)訓(xùn)練。不在輸入或輸出層中的單元通常被稱為隱層單元(hidden units)。隱層可被看作是以非線性方式變換輸入,從而使所有類別在最后一層變得線性可分( linearly separable by the last layer)(圖1)。
20世紀(jì)90年代末,神經(jīng)網(wǎng)絡(luò)和反向傳播被機(jī)器學(xué)習(xí)社區(qū)大量遺棄,同時(shí)也被計(jì)算機(jī)視覺和語音識(shí)別領(lǐng)域忽略。人們普遍認(rèn)為,學(xué)習(xí)有用的、多層級(jí)的、幾乎不靠先驗(yàn)知識(shí)的特征提取器并不現(xiàn)實(shí)可行。尤其是,人們通常認(rèn)為簡單的梯度下降法會(huì)深陷局部極小的泥潭——在這種權(quán)重配置當(dāng)中,除非進(jìn)行大的改動(dòng),否則很難降低平均誤差。
實(shí)踐中,對(duì)大型網(wǎng)絡(luò)而言,局部極小幾乎不構(gòu)成問題。無論初始條件如何,系統(tǒng)基本總能得到質(zhì)量非常相似的解決方案。最近的理論和實(shí)證研究結(jié)果均有力地表明,總的來說,局部極小不是一個(gè)嚴(yán)重問題。相反,解空間( landscape)充滿了大量梯度為0的鞍點(diǎn)( saddle points ),且在多數(shù)維度中表面向上彎曲,少數(shù)維度中表面向下彎曲。分析結(jié)果似乎表明,向下彎曲的鞍點(diǎn)在整體中占比相對(duì)較小,但這些鞍點(diǎn)的目標(biāo)函數(shù)值大多相近。因此,算法陷入這些鞍點(diǎn)(不能繼續(xù)尋優(yōu)),無關(guān)緊要。
2006年前后,加拿大高級(jí)研究所(CIFAR)聚集了一批研究人員,他們重燃了人們對(duì)深度前饋網(wǎng)絡(luò)的興趣。這些研究人員引入無監(jiān)督學(xué)習(xí)程序——無需標(biāo)記數(shù)據(jù)便可創(chuàng)建特征檢測器層。各層特征檢測器的學(xué)習(xí)目標(biāo)便是在下一層重構(gòu)或模擬特征檢測器(或原始輸入)的活動(dòng)。利用這種重構(gòu)學(xué)習(xí)目標(biāo)來「預(yù)訓(xùn)練(pre-training)」幾層復(fù)雜度遞增的特征檢測器,深層網(wǎng)絡(luò)的權(quán)重可以被初始化為合理值。接著,最終層的輸出單元可被添加到網(wǎng)絡(luò)頂端,整個(gè)深度系統(tǒng)可被微調(diào)至使用標(biāo)準(zhǔn)的反向傳播。在識(shí)別手寫數(shù)字或檢測行人時(shí),特別是當(dāng)標(biāo)記的數(shù)據(jù)量非常有限的時(shí)候,這一程序非常有效。
這種預(yù)訓(xùn)練的方法的首次重要應(yīng)用是在語音識(shí)別上,這之所以可行歸功于便于編程的GPUs的誕生,它讓研究人員可以用10到20倍的速度訓(xùn)練神經(jīng)網(wǎng)絡(luò)。2009年,這個(gè)方法被用來計(jì)算一段聲音采樣中提取短時(shí)系數(shù)窗口對(duì)應(yīng)的一系列概率值,這些概率值反映出由窗口中幀表示語音各個(gè)段落的可能性。在小詞匯表的標(biāo)準(zhǔn)語音識(shí)別測試上,這種方法的訓(xùn)練效果打破紀(jì)錄,很快它又發(fā)展到打破大詞匯表的標(biāo)準(zhǔn)語音測試紀(jì)錄。
到2012年,2009年以來的各種深度網(wǎng)絡(luò)一直的得到多個(gè)主要語音研究小組持續(xù)開發(fā)并被布局在安卓手機(jī)上。對(duì)于較小數(shù)據(jù)集來說,無監(jiān)督預(yù)訓(xùn)練有助于防止過擬合( overfitting), 當(dāng)標(biāo)注數(shù)據(jù)樣本?。?number of labelled examples is small)或需要遷移( in a transfer setting )——有很多源領(lǐng)域的標(biāo)注數(shù)據(jù)樣本但缺少目標(biāo)領(lǐng)域的標(biāo)注數(shù)據(jù)樣本——的時(shí)候,深度網(wǎng)絡(luò)的泛化( generalization)效果顯著提升。深度學(xué)習(xí)重新獲得認(rèn)識(shí),人們發(fā)現(xiàn),預(yù)訓(xùn)練階段只是小規(guī)模數(shù)據(jù)集的必需品。
然而,還有一種特殊類型的深度前饋網(wǎng)絡(luò)( deep feedforward network),不僅更易訓(xùn)練而且泛化能力要比那些相鄰兩層完全相連的神經(jīng)網(wǎng)絡(luò)強(qiáng)大很多。這就是卷積神經(jīng)網(wǎng)絡(luò) (ConvNet)。 在神經(jīng)網(wǎng)絡(luò)「失寵 」的日子里,卷積神經(jīng)網(wǎng)絡(luò)在實(shí)踐運(yùn)用中獲得許多成功,最近已被計(jì)算機(jī)視覺領(lǐng)域廣泛采用。
卷積神經(jīng)網(wǎng)絡(luò)
卷積神經(jīng)網(wǎng)絡(luò)最初是用來處理多維數(shù)組數(shù)據(jù),比如,一張由三個(gè)2D數(shù)組組成、包含三個(gè)彩色通道像素強(qiáng)度的彩色圖像。大量的數(shù)據(jù)模式都是多個(gè)數(shù)組形式:1D用來表示信號(hào)和序列信號(hào)包括人類語言;2D用來表示圖片或聲音;3D代表視頻或有聲音的圖像。卷積神經(jīng)網(wǎng)絡(luò)利用自然信號(hào)特征的核心理念是:局部連接(local connections),權(quán)重共享,池化(pooling)和多網(wǎng)絡(luò)層的使用。
典型的卷積神經(jīng)網(wǎng)絡(luò)的架構(gòu)(圖二)包括一系列階段:最初的幾個(gè)階段由卷積層和池化層組成,卷積層的單元被組織到特征圖(feature map)中,每個(gè)單元通過一組被稱作濾波器(filter bank)的權(quán)值被連接到前一層的特征圖的局部數(shù)據(jù)塊。接下來,得到的局部加權(quán)和會(huì)傳遞至一個(gè)非線性函數(shù),例如ReLU。同一個(gè)特征圖中的所有單元共享相同的濾波器,不同特征圖使用不同濾波器。采用這種架構(gòu)有兩方面的原因。首先,在諸如圖像這樣的數(shù)組數(shù)據(jù)中,數(shù)值與附近數(shù)值之間通常是高度相關(guān)的,容易生成易被探測到的局部特征(motif)。其次,圖像和其他類似信號(hào)的局部統(tǒng)計(jì)特征通常又與位置無關(guān),易言之,出現(xiàn)在某處的某個(gè)特征也可能出現(xiàn)在其他任何地方,因此,不同位置的單元會(huì)共享同樣的權(quán)值并且可以探測相同模式。數(shù)學(xué)上,由一個(gè)特征圖完成的過濾操作是一個(gè)離線的卷積,卷積神經(jīng)網(wǎng)絡(luò)由此得名。
和卷積層用來探測前一層中特征之間的局部連接不同,池化層的作用則是對(duì)語義相似的特征進(jìn)行合并。由于構(gòu)成局部主題的特征之間的相對(duì)位置關(guān)系不是一成不變的,可以通過粗粒度檢測每個(gè)特征的位置來實(shí)現(xiàn)較可靠的主題識(shí)別。一個(gè)池化層單元通常會(huì)計(jì)算一個(gè)或幾個(gè)特征圖中一個(gè)局部塊的較大值,相鄰的池化單元?jiǎng)t會(huì)移動(dòng)一列或一行從小塊讀取輸入,這種設(shè)計(jì)不僅減少了數(shù)據(jù)表征需要的維數(shù),而且也能對(duì)數(shù)據(jù)小規(guī)模的偏移、扭曲保持不變。兩到三個(gè)卷積層,非線性層和池化層被疊加起來,后面再加上更多的卷積和全連接層。在卷積神經(jīng)網(wǎng)絡(luò)的反向傳播算法和在一般深度網(wǎng)絡(luò)上一樣簡單,能讓所有濾波器中的權(quán)值得到訓(xùn)練。
多數(shù)自然信號(hào)都是分級(jí)組合而成,通過對(duì)較低層信號(hào)組合能夠獲得較高層的信號(hào)特征,而深度神經(jīng)網(wǎng)絡(luò)充分利用了上述特性。在圖像中,線條組合形成圖案,圖案形成部件,部件組成物體。類似的層次結(jié)構(gòu)存在于由聲音到電話中的語音及文本形成過程,音素組成音節(jié),音節(jié)組成單詞,單詞組成句子。當(dāng)輸入數(shù)據(jù)在前一層中的位置有變化的時(shí)候,池化操作讓這些特征表示對(duì)變化具有魯棒性。
卷積神經(jīng)網(wǎng)絡(luò)中的層次的卷積和匯聚的靈感直接來源于視覺神經(jīng)科學(xué)中的簡單細(xì)胞和復(fù)雜細(xì)胞的經(jīng)典概念,并且其整體架構(gòu)讓人想起視覺皮層腹側(cè)通路的LGN-V1-V2-V4-IT層次結(jié)構(gòu)。當(dāng)向卷積神經(jīng)網(wǎng)絡(luò)模型和猴子同時(shí)展示相同的畫面時(shí),卷積神經(jīng)網(wǎng)絡(luò)的高級(jí)單元被激活,解釋了猴子顳下皮層隨機(jī)設(shè)置的160個(gè)神經(jīng)元的變化。卷積神經(jīng)網(wǎng)絡(luò)有著神經(jīng)認(rèn)知機(jī)的基礎(chǔ),兩者的體系結(jié)構(gòu)有些類似,但是,卷積神經(jīng)網(wǎng)絡(luò)沒有諸如反向傳播的那種端對(duì)端的監(jiān)督學(xué)習(xí)算法。原始的1D卷積神經(jīng)網(wǎng)絡(luò)被稱為「延時(shí)神經(jīng)網(wǎng)絡(luò)(time-delay neural net )」,用于識(shí)別語音和簡單的單詞。
早在20世紀(jì)90年代初,卷積網(wǎng)絡(luò)就已有非常廣泛的應(yīng)用 ,最開始延時(shí)神經(jīng)網(wǎng)絡(luò)被用在語音識(shí)別和文檔閱讀上。文本閱讀系統(tǒng)使用了受過訓(xùn)練的延時(shí)神經(jīng)網(wǎng)絡(luò)以及一個(gè)實(shí)現(xiàn)了語言約束的概率模型。到20世紀(jì)90年代末,該系統(tǒng)能夠讀取美國超過十分之一的支票。隨后,微軟發(fā)明了許多基于卷積神經(jīng)網(wǎng)絡(luò)的光學(xué)字符識(shí)別和手寫識(shí)別系統(tǒng)。卷積神經(jīng)網(wǎng)絡(luò)在20世紀(jì)90年代初就被嘗試用于包括臉、手、面部識(shí)別的自然圖像目標(biāo)檢測中。
使用深層卷積網(wǎng)絡(luò)進(jìn)行圖像識(shí)別
從21世紀(jì)初開始,卷積神經(jīng)網(wǎng)絡(luò)就被成功用于檢測、分割和物體識(shí)別以及圖像各區(qū)域。這些應(yīng)用都使用了豐富的標(biāo)簽數(shù)據(jù),比如,交通標(biāo)志識(shí)別、生物圖像(特別是神經(jīng)鏈接組學(xué)方面)分割、面部探測、文本、行人和自然圖像中的人體的檢測。近些年來,卷積神經(jīng)網(wǎng)絡(luò)的一項(xiàng)重要成功應(yīng)用就是人臉識(shí)別。
值得注意的是,圖像可以在像素級(jí)別上被標(biāo)記,這樣就能被用于諸如自主移動(dòng)機(jī)器人(autonomous mobile robots)和無人駕駛汽車等技術(shù)中。像Mobileye和NVIDIA 這些公司正在將這些基于卷積神經(jīng)網(wǎng)絡(luò)的方法應(yīng)用于即將面世的汽車視覺系統(tǒng)中。其他重要的應(yīng)用程序涉及到自然語言理解和語音識(shí)別。
盡管取得了這些成就,但在2012年ImageNet競爭之前,卷積神經(jīng)網(wǎng)絡(luò)在很大程度上并未獲得主流計(jì)算機(jī)視覺和機(jī)器學(xué)習(xí)團(tuán)體的青睞。當(dāng)深層卷積網(wǎng)絡(luò)被應(yīng)用于來源于包含1000個(gè)不同類型約100萬個(gè)圖像的數(shù)據(jù)集中,它們?nèi)〉昧梭@人的成果,錯(cuò)誤率僅是當(dāng)時(shí)較佳方法的一半。該成功源于高效利用了GPUs和ReLUs、一項(xiàng)新的被稱為「dropout 」的正規(guī)化技術(shù)( regularization technique )以及分解現(xiàn)有樣本產(chǎn)生更多訓(xùn)練樣本的技術(shù)。成功給計(jì)算機(jī)視覺領(lǐng)域帶來一場革命。如今,卷積神經(jīng)網(wǎng)絡(luò)幾乎覆蓋所有識(shí)別和探測任務(wù),在有些任務(wù)中,其表現(xiàn)接近人類水平。最近一個(gè)令人震驚的例子,利用卷積神經(jīng)網(wǎng)絡(luò)結(jié)合遞歸網(wǎng)絡(luò)模塊來生成圖像標(biāo)題( image captions )(如圖3)。
圖3 |從圖像到文本。將遞歸神經(jīng)網(wǎng)絡(luò)(RNN)生成的標(biāo)題作為額外輸入,深度卷積神經(jīng)網(wǎng)絡(luò)(CNN)會(huì)從測試圖片中提取表征,再利用訓(xùn)練好的RNN將圖像中高級(jí)( high-level )表征「翻譯成 」標(biāo)題(上圖)。當(dāng)RNN一邊生成單詞(黑體所示),一邊能將注意力集中在輸入圖像的不同位置(中間和底部;塊狀越亮,給予的注意力越多)的時(shí)候,我們發(fā)現(xiàn),它能更好地將圖像「翻譯成」標(biāo)題。
當(dāng)前的卷積神經(jīng)網(wǎng)絡(luò)由10~20層ReLUs,數(shù)百萬個(gè)權(quán)值及數(shù)十億個(gè)連接組成。兩年前,訓(xùn)練如此龐大的網(wǎng)絡(luò)可能需要數(shù)周時(shí)間,而隨著硬件、軟件和算法并行化(algorithm parallelization)的進(jìn)步,訓(xùn)練時(shí)間已經(jīng)縮短至幾個(gè)小時(shí)。
卷積神經(jīng)網(wǎng)絡(luò)的視覺系統(tǒng)良好表現(xiàn)促使包括谷歌、Facebook、微軟、IBM、雅虎、推特和Adobe在內(nèi)的多數(shù)主要科技公司以及數(shù)量激增的創(chuàng)業(yè)公司開始啟動(dòng)研發(fā)項(xiàng)目,部署基于卷積神經(jīng)網(wǎng)絡(luò)的圖像識(shí)別產(chǎn)品和服務(wù)。
卷積神經(jīng)網(wǎng)絡(luò)易于在芯片或現(xiàn)場可編程門列陣(FPGA)中得以高效實(shí)現(xiàn)。為了實(shí)現(xiàn)智能手機(jī)、相機(jī)、機(jī)器人和無人駕駛汽車上的實(shí)時(shí)視覺應(yīng)用,NVIDIA、Mobileye、因特爾、高通和三星等許多公司都正在開發(fā)卷積神經(jīng)網(wǎng)絡(luò)芯片。
分布式表征和語言處理
深度學(xué)習(xí)理論顯示,與不適用分布式表征的經(jīng)典學(xué)習(xí)算法相比,深度網(wǎng)絡(luò)有兩處異常明顯的優(yōu)勢。這些優(yōu)勢源于節(jié)點(diǎn)權(quán)重(the power of composition)以及底層數(shù)據(jù)生成分布具有適當(dāng)?shù)慕M成結(jié)構(gòu)。第一,學(xué)習(xí)分布式表征能夠?qū)⑼ㄟ^訓(xùn)練而學(xué)習(xí)獲得的特性值泛化為新的組合(例如,n元特征有2n 組合可能)。第二,深度網(wǎng)絡(luò)中的表征層相互組合帶來了另一個(gè)指數(shù)級(jí)優(yōu)勢的潛力(指數(shù)性的深度)。
多層神經(jīng)網(wǎng)絡(luò)的隱藏層學(xué)會(huì)以一種易于預(yù)測目標(biāo)輸出的方式來再現(xiàn)網(wǎng)絡(luò)輸入。一個(gè)很好的示范就是訓(xùn)練多層神經(jīng)網(wǎng)絡(luò)根據(jù)局部文本中的前述語句預(yù)測下一個(gè)詞。文本的每個(gè)詞表示成網(wǎng)絡(luò)中的N分之一向量,也就是說,每個(gè)成分的值為1,余下的為0。在第一層中,每個(gè)字創(chuàng)建一個(gè)不同模式的激活或單詞向量(如圖4所示)。在語言模型中,網(wǎng)絡(luò)中的其他層學(xué)習(xí)如何將輸入的單詞向量轉(zhuǎn)化成輸出單詞向量來預(yù)測下一個(gè)單詞,也能用來預(yù)測詞匯表中單詞作為文本中下一個(gè)單詞出現(xiàn)的概率。正如學(xué)習(xí)分布表征符號(hào)文本最初展示的那樣,網(wǎng)絡(luò)學(xué)習(xí)了包含許多激活節(jié)點(diǎn)(active components )、且每一個(gè)節(jié)點(diǎn)都可被解釋成一個(gè)單詞獨(dú)立特征的單詞向量。這些語義學(xué)特征并沒有在輸入時(shí)被清晰表現(xiàn)出來。而是在學(xué)習(xí)過程中被發(fā)現(xiàn)的,并被作為將輸入與輸出符號(hào)結(jié)構(gòu)化關(guān)系分解為微規(guī)則(micro-rules)的好方法。當(dāng)詞序列來自一個(gè)大的真實(shí)文本語料庫,單個(gè)微規(guī)則并不可靠時(shí),學(xué)習(xí)單詞向量也一樣表現(xiàn)良好。當(dāng)網(wǎng)絡(luò)被訓(xùn)練用于預(yù)測新文本中的下一個(gè)詞時(shí),一些單詞向量非常相似,比如Tuesday和Wednesday,Sweden和Norway 。這種表征被稱為分布式表征,因?yàn)樗鼈兊脑兀ㄌ匦裕┎⒎窍嗷ヅ懦猓宜鼈儤?gòu)造信息與觀測到的數(shù)據(jù)變化相對(duì)應(yīng)。這些單詞向量由所習(xí)得的特性組成,這些特性并非由科學(xué)家們事先決定而是由神經(jīng)網(wǎng)絡(luò)自動(dòng)發(fā)現(xiàn)?,F(xiàn)在,從文本中習(xí)得的單詞向量表征被非常廣泛地使用于自然語言應(yīng)用。
表征問題是邏輯啟發(fā)與神經(jīng)網(wǎng)絡(luò)啟發(fā)認(rèn)知范式爭論的核心問題。在邏輯啟發(fā)范式中,一個(gè)符號(hào)實(shí)體表示某一事物,因?yàn)槠涞膶傩耘c其他符號(hào)實(shí)體相同或者不同。它并不包含與使用相關(guān)的內(nèi)部結(jié)構(gòu),而且為理解符號(hào)含義,就必須與審慎選取的推理規(guī)則的變化相聯(lián)系。相比之下,神經(jīng)網(wǎng)絡(luò)使用大量活動(dòng)載體( big activity vectors)、權(quán)重矩陣和標(biāo)量非線性,實(shí)現(xiàn)一種快速「直覺 」推斷,它是輕松常識(shí)推理的基礎(chǔ)。
在介紹神經(jīng)語言模型前,語言統(tǒng)計(jì)模型的標(biāo)準(zhǔn)方法并沒有使用分布式表征:它是基于計(jì)算短符號(hào)序列長度N(稱為N-grams,N元文法)出現(xiàn)的頻率。N-grams可能出現(xiàn)的次數(shù)與VN一致,這里的V指的是詞匯量的大小,考慮到詞匯量大的文本,因此需要更龐大的一個(gè)語料庫。N-grams把每一個(gè)詞作為一個(gè)原子單位,因此它不能在語義緊密相關(guān)的單詞序列中,一概而論,但是,神經(jīng)語言模型可以實(shí)現(xiàn)上述功能,因?yàn)樗鼈儗⒚總€(gè)單詞與真實(shí)特征值的向量關(guān)聯(lián)起來,并且語義相關(guān)的單詞在該向量空間中更為貼近。(如圖4)。
圖4|已完成學(xué)習(xí)的單詞向量的可視化展現(xiàn)。左邊介紹了為了建模語言而習(xí)得的詞匯表征,通過使用 t-SNE算法[103]非線性映射至二維空間中以便于觀察。右邊是一個(gè)由實(shí)現(xiàn)英-法互翻的遞歸神經(jīng)網(wǎng)絡(luò)學(xué)習(xí)短語的二維空間表示。由圖可知,語義或排序相似的單詞表征映射較為接近 。詞匯的分布式表征通過使用反向傳播獲得,以此來學(xué)習(xí)每個(gè)單詞的表征形式及預(yù)測目標(biāo)數(shù)量的功能,比如序列中的后續(xù)單詞(如語言建模)或者翻譯文字的全部序列(機(jī)器翻譯)。
遞歸神經(jīng)網(wǎng)絡(luò)
最初引入反向傳播時(shí),最令人激動(dòng)的應(yīng)用便是訓(xùn)練遞歸神經(jīng)網(wǎng)絡(luò)(簡稱RNNs)。對(duì)于那些需要序列連續(xù)輸入的任務(wù)(比如,語音和語言),RNNs是上乘之選(圖5)。RNNs一次處理一個(gè)輸入序列元素,同時(shí)維護(hù)隱式單元中隱含著該序列過去所有元素的歷史信息的「狀態(tài)向量」。當(dāng)我們考慮隱式單元在不同的離散時(shí)間步長的輸出,就好像它們是在多層網(wǎng)絡(luò)深處的不同神經(jīng)元的輸出(圖五,右)如何利用反向傳播訓(xùn)練RNNs,一目了然。
RNNs是非常強(qiáng)大的動(dòng)力系統(tǒng),但訓(xùn)練它們也被證實(shí)存在一些問題,因?yàn)榉聪騻鞑ヌ荻仍诿總€(gè)時(shí)間間隔內(nèi)或增長或下降,因此,一段時(shí)間之后通常會(huì)導(dǎo)致結(jié)果激增或者降為零。
因先進(jìn)的架構(gòu)和訓(xùn)練的方式,RNNs不僅被證實(shí)擅長預(yù)測文本中下一個(gè)字符或句子中下一個(gè)單詞,還可應(yīng)用于更加復(fù)雜的任務(wù)。例如,某時(shí)刻閱讀英文句子中的單詞后,一個(gè)英語的「編碼器」網(wǎng)絡(luò)將被生成,從而幫助隱式單元的最終狀態(tài)向量很好地表征句子所傳達(dá)的思想。這種「思想向量(thought vector)」可以作為一個(gè)集大成的法語「編碼器」網(wǎng)絡(luò)的初始化隱式狀態(tài)(或額外的輸入),其輸出為法語翻譯首單詞的概率分布。如果從概率分布中選擇一個(gè)特定首單詞作為編碼網(wǎng)絡(luò)的輸入,將會(huì)輸出翻譯句子中第二個(gè)單詞的概率分布,依此類推,直到停止選擇為止??傮w而言,這一過程是根據(jù)英語句子的概率分布而生成的法語單詞序列。這種近乎直接的機(jī)器翻譯方法的表現(xiàn)很快和較先進(jìn)(state-of-the-art)的方法不相上下,同時(shí)引發(fā)人們對(duì)于理解句子是否需要使用推理發(fā)掘內(nèi)部符號(hào)表示質(zhì)疑。這與日常推理中涉及到根據(jù)合理結(jié)論類推的觀點(diǎn)是匹配的。
除了將法語句子翻譯成英語句子,還可以學(xué)習(xí)將圖片內(nèi)容「翻譯」為英語句子(如圖3)。編碼器是一種在最后隱層將像素轉(zhuǎn)換為活動(dòng)向量的深度卷積網(wǎng)絡(luò)。解碼器是一種類似機(jī)器翻譯和神經(jīng)網(wǎng)絡(luò)語言模型的遞歸神經(jīng)網(wǎng)絡(luò)。近年來,引發(fā)了人們對(duì)深度學(xué)習(xí)該領(lǐng)域的熱議。RNNs一旦展開(如圖5),可被視作是所有層共享同樣權(quán)值的深度前饋神經(jīng)網(wǎng)絡(luò)。雖然它們的主要目的是長期學(xué)習(xí)的依賴性,但有關(guān)理論和經(jīng)驗(yàn)的例證表明很難學(xué)習(xí)并長期儲(chǔ)存信息。
為了解決這一問題,一個(gè)擴(kuò)展網(wǎng)絡(luò)存儲(chǔ)的想法出現(xiàn)。第一種方案是采用了特殊隱式單元的LSTM,該自然行為便是長期的保存輸入。一種類似累加器和門控神經(jīng)元的稱作記憶細(xì)胞的特殊單元:它通過在下一個(gè)時(shí)間步長擁有一個(gè)權(quán)值并聯(lián)接到自身,從而拷貝自身狀態(tài)的真實(shí)值和累積外部信號(hào),但這種自聯(lián)接是另一個(gè)學(xué)習(xí)并決定何時(shí)清除記憶內(nèi)容的單元的乘法門所操控。
LSTM網(wǎng)絡(luò)最終被證明比傳統(tǒng)的遞歸神經(jīng)網(wǎng)絡(luò)(RNNs)更為有效,尤其是,每一個(gè)時(shí)間步長內(nèi)有若干層時(shí),整個(gè)語音識(shí)別系統(tǒng)能夠完全一致地將聲學(xué)轉(zhuǎn)錄為字符序列。目前,LSTM網(wǎng)絡(luò)及其相關(guān)形式的門控單元同樣也用于編碼與解碼網(wǎng)絡(luò),并在機(jī)器翻譯中表現(xiàn)良好。
過去幾年里,幾位學(xué)者提出一些不同的方案來增強(qiáng)RNNs存儲(chǔ)器模塊。這些建議包括,神經(jīng)圖靈機(jī)——通過加入RNNs可讀可寫的“類似磁帶”的存儲(chǔ)來增強(qiáng)網(wǎng)絡(luò),而記憶網(wǎng)絡(luò)中的常規(guī)網(wǎng)絡(luò)通過聯(lián)想記憶來增強(qiáng)。記憶網(wǎng)絡(luò)在標(biāo)準(zhǔn)的問答基準(zhǔn)測試中表現(xiàn)良好,記憶是用來記住稍后要求回答問題的事例。
除了簡單記憶化、神經(jīng)圖靈機(jī)和記憶網(wǎng)絡(luò)被用于通常需要推理和符號(hào)操作的任務(wù)以外,還可以教神經(jīng)圖靈機(jī)「算法」。除此以外,他們可以從未排序的輸入符號(hào)序列(其中每個(gè)符號(hào)都有與其在列表中對(duì)應(yīng)的表明優(yōu)先級(jí)的真實(shí)值)中,學(xué)習(xí)輸出一個(gè)排序的符號(hào)序列??梢杂?xùn)練記憶網(wǎng)絡(luò)用來追蹤一個(gè)設(shè)定與文字冒險(xiǎn)游戲和故事的世界的狀態(tài),回答一些需要復(fù)雜推理的問題。在一個(gè)測試?yán)又?,網(wǎng)絡(luò)能夠正確回答15句版的《指環(huán)王》中諸如「Frodo現(xiàn)在在哪?」的問題。
圖5 |一個(gè)遞歸神經(jīng)網(wǎng)絡(luò)在時(shí)間中展開的計(jì)算和涉及的相關(guān)計(jì)算。人工神經(jīng)元(例如,隱式樣單元分組節(jié)點(diǎn)在時(shí)間t的標(biāo)準(zhǔn)值下)獲得其他神經(jīng)元的輸入——在之前的步驟中(黑色區(qū)域呈現(xiàn),代表一步延遲,如左)。這樣,一個(gè)遞歸神經(jīng)網(wǎng)絡(luò)可由xt的輸入序列元素,映射到一個(gè)輸出序列與元素ot,每次ot值取決于所有前面的xt?(t?≤t)。相同的參數(shù)(U,V矩陣W)在每步中使用。許多其他結(jié)構(gòu)是可行的,包括一個(gè)變體的網(wǎng)絡(luò)可以生成的輸出序列(例如,詞語),每一個(gè)都作為下次的輸入步驟。反向傳播算法(圖1)可以直接應(yīng)用于計(jì)算機(jī)圖形展開網(wǎng)絡(luò),并對(duì)所有的標(biāo)準(zhǔn)陳述和參數(shù),計(jì)算其總誤差的導(dǎo)數(shù)(例如,生成正確的輸出序列的對(duì)數(shù)概率)。
深度學(xué)習(xí)的未來
無監(jiān)督學(xué)習(xí)促進(jìn)了人們重燃對(duì)深度學(xué)習(xí)的興趣,但是,有監(jiān)督學(xué)習(xí)的成功蓋過了無監(jiān)督學(xué)習(xí)。雖然我們沒有關(guān)注這方面的評(píng)論,但是,從長遠(yuǎn)來看,我們還是期望無監(jiān)督學(xué)習(xí)能夠變得更加重要。(因?yàn)椋┤祟惡蛣?dòng)物的學(xué)習(xí)方式大多為無監(jiān)督學(xué)習(xí):我們通過觀察世界來發(fā)現(xiàn)它的結(jié)果,而不是被告知每個(gè)對(duì)象的名稱。
人類視覺是一個(gè)智能的、基于特定方式的利用小或大分辨率的視網(wǎng)膜中央窩與周圍環(huán)繞區(qū)域?qū)饩€采集成像的活躍的過程。我們希望機(jī)器視覺能夠在未來獲得巨大進(jìn)步,這些進(jìn)步來自于那些端對(duì)端的訓(xùn)練系統(tǒng),并集合卷積神經(jīng)網(wǎng)絡(luò)(ConvNets)和遞歸神經(jīng)網(wǎng)絡(luò)(RNNs),利用強(qiáng)化學(xué)習(xí)來決定走向。結(jié)合了深度學(xué)習(xí)和強(qiáng)化學(xué)習(xí)的系統(tǒng)尚處在嬰兒期,但是,在分類任務(wù)上,它們已經(jīng)超越了被動(dòng)視覺系統(tǒng),并在嘗試學(xué)習(xí)操作視頻游戲方面,產(chǎn)生了令人印象深刻的結(jié)果。
未來幾年,理解自然語言會(huì)是深度學(xué)習(xí)產(chǎn)生巨大影響的另一個(gè)領(lǐng)域。我們預(yù)測,當(dāng)它們學(xué)習(xí)了某時(shí)刻選擇性地加入某部分的策略,那些使用遞歸神經(jīng)網(wǎng)絡(luò)(RNNs)的系統(tǒng)將會(huì)更好地理解句子或整個(gè)文檔。
最終,人工智能的重大進(jìn)步將來自將表征學(xué)習(xí)與復(fù)雜推理結(jié)合起來的系統(tǒng)。盡管深度學(xué)習(xí)和簡單推理已經(jīng)用于語音和手寫識(shí)別很長一段時(shí)間了,我們?nèi)孕枰ㄟ^大量向量操作的新范式替換基于規(guī)則的字符表達(dá)操作。
文章版權(quán)歸作者所有,未經(jīng)允許請(qǐng)勿轉(zhuǎn)載,若此文章存在違規(guī)行為,您可以聯(lián)系管理員刪除。
轉(zhuǎn)載請(qǐng)注明本文地址:http://systransis.cn/yun/4306.html
摘要:人工智能的主流算法深度學(xué)習(xí)的歷史,堪稱也是深度學(xué)習(xí)三劍客和共同走過的年艱難而輝煌的不悔人生。之后使用一種稱為監(jiān)督學(xué)習(xí)的方法來訓(xùn)練感知器,以正確區(qū)分不同形狀。表示,多層次神經(jīng)網(wǎng)絡(luò)的結(jié)構(gòu)并不會(huì)使感知器強(qiáng)大到有實(shí)用價(jià)值。 人工智能的主流算法Deep Learning深度學(xué)習(xí)的歷史,堪稱Deep History, 也是深度學(xué)習(xí)三劍客Geoff Hinton, Yann LeCun 和Yoshua B...
摘要:毫無疑問,現(xiàn)在深度學(xué)習(xí)是主流。所以科技巨頭們包括百度等紛紛通過收購深度學(xué)習(xí)領(lǐng)域的初創(chuàng)公司來招攬人才。這項(xiàng)基于深度學(xué)習(xí)的計(jì)算機(jī)視覺技術(shù)已經(jīng)開發(fā)完成,正在測試。 在過去的三十年,深度學(xué)習(xí)運(yùn)動(dòng)一度被認(rèn)為是學(xué)術(shù)界的一個(gè)異類,但是現(xiàn)在,?Geoff Hinton(如圖1)和他的深度學(xué)習(xí)同事,包括紐約大學(xué)Yann LeCun和蒙特利爾大學(xué)的Yoshua Bengio,在互聯(lián)網(wǎng)世界受到前所未有的關(guān)注...
摘要:沒有過年,年后在年后的年打敗了圍棋高手李世石,這下人工智能引起了全世界的關(guān)注。隨后的十多年,人工智能轉(zhuǎn)入第一次低潮,而也在他生日時(shí),因海事喪生,遺憾未能見到神經(jīng)網(wǎng)絡(luò)后期的復(fù)興。算力的進(jìn)步再次加速了人工智能的快速發(fā)展。 showImg(https://segmentfault.com/img/remote/1460000019409315); 小西:小迪小迪,我發(fā)現(xiàn)人工智能發(fā)展史上很多事...
摘要:今年月日收購了基于深度學(xué)習(xí)的計(jì)算機(jī)視覺創(chuàng)業(yè)公司。這項(xiàng)基于深度學(xué)習(xí)的計(jì)算機(jī)視覺技術(shù)已經(jīng)開發(fā)完成,正在測試。深度學(xué)習(xí)的誤區(qū)及產(chǎn)品化浪潮百度首席科學(xué)家表示目前圍繞存在著某種程度的夸大,它不單出現(xiàn)于媒體的字里行間,也存在于一些研究者之中。 在過去的三十年,深度學(xué)習(xí)運(yùn)動(dòng)一度被認(rèn)為是學(xué)術(shù)界的一個(gè)異類,但是現(xiàn)在, Geoff Hinton(如圖1)和他的深度學(xué)習(xí)同事,包括紐約大學(xué)Yann LeCun和蒙特...
摘要:的研究興趣涵蓋大多數(shù)深度學(xué)習(xí)主題,特別是生成模型以及機(jī)器學(xué)習(xí)的安全和隱私。與以及教授一起造就了年始的深度學(xué)習(xí)復(fù)興。目前他是僅存的幾個(gè)仍然全身心投入在學(xué)術(shù)界的深度學(xué)習(xí)教授之一。 Andrej Karpathy特斯拉 AI 主管Andrej Karpathy 擁有斯坦福大學(xué)計(jì)算機(jī)視覺博士學(xué)位,讀博期間師從現(xiàn)任 Google AI 首席科學(xué)家李飛飛,研究卷積神經(jīng)網(wǎng)絡(luò)在計(jì)算機(jī)視覺、自然語言處理上的應(yīng)...
閱讀 901·2021-10-27 14:19
閱讀 1120·2021-10-15 09:42
閱讀 1545·2021-09-14 18:02
閱讀 753·2019-08-30 13:09
閱讀 3000·2019-08-29 15:08
閱讀 2101·2019-08-28 18:05
閱讀 964·2019-08-26 10:25
閱讀 2795·2019-08-23 16:28