成人国产在线小视频_日韩寡妇人妻调教在线播放_色成人www永久在线观看_2018国产精品久久_亚洲欧美高清在线30p_亚洲少妇综合一区_黄色在线播放国产_亚洲另类技巧小说校园_国产主播xx日韩_a级毛片在线免费

資訊專欄INFORMATION COLUMN

神經(jīng)網(wǎng)絡(luò)和深度學(xué)習(xí)簡(jiǎn)史第四部分:深度學(xué)習(xí)終迎偉大復(fù)興

Simon_Zhou / 1468人閱讀

摘要:主流機(jī)器學(xué)習(xí)社區(qū)對(duì)神經(jīng)網(wǎng)絡(luò)興趣寡然。對(duì)于深度學(xué)習(xí)的社區(qū)形成有著巨大的影響。然而,至少有兩個(gè)不同的方法對(duì)此都很有效應(yīng)用于卷積神經(jīng)網(wǎng)絡(luò)的簡(jiǎn)單梯度下降適用于信號(hào)和圖像,以及近期的逐層非監(jiān)督式學(xué)習(xí)之后的梯度下降。

我們終于來到簡(jiǎn)史的最后一部分。這一部分,我們會(huì)來到故事的尾聲并一睹神經(jīng)網(wǎng)絡(luò)如何在上世紀(jì)九十年代末擺脫頹勢(shì)并找回自己,也會(huì)看到自此以后它獲得的驚人先進(jìn)成果。

「試問機(jī)器學(xué)習(xí)領(lǐng)域的任何一人,是什么讓神經(jīng)網(wǎng)絡(luò)研究進(jìn)行下來,對(duì)方很可能提及這幾個(gè)名字中的一個(gè)或全部: Geoffrey Hinton,加拿大同事Yoshua Bengio 以及臉書和紐約大學(xué)的Yann LeCun?!?/p>

深度學(xué)習(xí)的密謀

當(dāng)你希望有一場(chǎng)革命的時(shí)候,那么,從密謀開始吧。隨著支持向量機(jī)的上升和反向傳播的失敗,對(duì)于神經(jīng)網(wǎng)絡(luò)研究來說,上世紀(jì)早期是一段黑暗的時(shí)間。Lecun與Hinton各自提到過,那時(shí)他們以及他們學(xué)生的論文被拒成了家常便飯,因?yàn)檎撐闹黝}是神經(jīng)網(wǎng)絡(luò)。上面的引文可能夸張了——當(dāng)然機(jī)器學(xué)習(xí)與AI的研究仍然十分活躍,其他人,例如Juergen Schmidhuber也正在研究神經(jīng)網(wǎng)絡(luò)——但這段時(shí)間的引用次數(shù)也清楚表明興奮期已經(jīng)平緩下來,盡管還沒有完全消失。在研究領(lǐng)域之外,他們找到了一個(gè)強(qiáng)有力的同盟:加拿大政府。CIFAR的資助鼓勵(lì)還沒有直接應(yīng)用的基礎(chǔ)研究,這項(xiàng)資助首先鼓勵(lì)Hinton于1987年搬到加拿大,然后一直資助他的研究直到九十年代中期?!璈inton 沒有放棄并改變他的方向,而是繼續(xù)研究神經(jīng)網(wǎng)絡(luò),并努力從CIFAR那里獲得更多資助,正如這篇例文(http://www.thestar.com/news/world/2015/04/17/how-a-toronto-professors-research-revolutionized-artificial-intelligence.html)清楚道明的:

「但是,在2004年,Hinton要求領(lǐng)導(dǎo)一項(xiàng)新的有關(guān)神經(jīng)計(jì)算的項(xiàng)目。主流機(jī)器學(xué)習(xí)社區(qū)對(duì)神經(jīng)網(wǎng)絡(luò)興趣寡然?!?/p>

「那是最不可能的時(shí)候」Bengio是蒙特利爾大學(xué)的教授,也是去年重新上馬的CIFAR項(xiàng)目聯(lián)合主管,「其他每個(gè)人都在做著不同的事。莫名其妙地,Geoff說服了他們?!?/p>

「我們應(yīng)該為了他們的那場(chǎng)豪賭大力贊許CIFAR?!?/p>

CIFAR「對(duì)于深度學(xué)習(xí)的社區(qū)形成有著巨大的影響。」LeCun補(bǔ)充道,他是CIFAR項(xiàng)目的另一個(gè)聯(lián)合主管?!肝覀兿袷菑V大機(jī)器學(xué)習(xí)社區(qū)的棄兒:無法發(fā)表任何文章。這個(gè)項(xiàng)目給了我們交流思想的天地?!?/p>

資助不算豐厚,但足夠讓研究員小組繼續(xù)下去。Hinton和這個(gè)小組孕育了一場(chǎng)密謀:用「深度學(xué)習(xí)」來「重新命名」讓人聞之色變的神經(jīng)網(wǎng)絡(luò)領(lǐng)域。接下來,每位研究人員肯定都?jí)粝脒^的事情真的發(fā)生了:2006年,Hinton、Simon Osindero與Yee-Whye Teh發(fā)表了一篇論文,這被視為一次重要突破,足以重燃人們對(duì)神經(jīng)網(wǎng)絡(luò)的興趣:A fast learning algorithm for deep belief nets(論文參見:https://www.cs.toronto.edu/~hinton/absps/fastnc.pdf)。

正如我們將要看到的,盡管這個(gè)想法所包含的東西都已經(jīng)很古老了,「深度學(xué)習(xí)」的運(yùn)動(dòng)完全可以說是由這篇文章所開始。但是比起名稱,更重要的是如果權(quán)重能夠以一種更靈活而非隨機(jī)的方式進(jìn)行初始化,有著多層的神經(jīng)網(wǎng)絡(luò)就可以得以更好地訓(xùn)練。

「歷史上的第一次,神經(jīng)網(wǎng)絡(luò)沒有好處且不可訓(xùn)練的信念被克服了,并且這是個(gè)非常強(qiáng)烈的信念。我的一個(gè)朋友在ICML(機(jī)器學(xué)習(xí)國(guó)際會(huì)議)發(fā)表了一篇文章,而就在這不久之前,選稿編輯還說過ICML不應(yīng)該接受這種文章,因?yàn)樗顷P(guān)于神經(jīng)網(wǎng)絡(luò),并不適合ICML。實(shí)際上如果你看一下去年的ICML,沒有一篇文章的標(biāo)題有『神經(jīng)網(wǎng)絡(luò)』四個(gè)字,因此ICML不應(yīng)該接受神經(jīng)網(wǎng)絡(luò)的文章。那還僅僅只是幾年前。IEEE期刊真的有『不接收你的文章』的官方準(zhǔn)則。所以,這種信念其實(shí)非常強(qiáng)烈?!?/p>

受限的玻爾茲曼機(jī)器

那么什么叫做初始化權(quán)重的靈活方法呢?實(shí)際上,這個(gè)主意基本就是利用非監(jiān)督式訓(xùn)練方式去一個(gè)一個(gè)訓(xùn)練神經(jīng)層,比起一開始隨機(jī)分配值的方法要更好些,之后以監(jiān)督式學(xué)習(xí)作為結(jié)束。每一層都以受限波爾茲曼機(jī)器(RBM)開始,就像上圖所顯示的隱藏單元和可見單元之間并沒有連接的玻爾茲曼機(jī)器(如同亥姆霍茲?rùn)C(jī)器),并以非監(jiān)督模式進(jìn)行數(shù)據(jù)生成模式的訓(xùn)練。事實(shí)證明這種形式的玻爾茲曼機(jī)器能夠有效采用2002年Hinton引進(jìn)的方式「最小化對(duì)比發(fā)散專家訓(xùn)練產(chǎn)品(Training Products of Experts by Minimizing Contrastive Divergence)」進(jìn)行訓(xùn)練。

基本上,除去單元生成訓(xùn)練數(shù)據(jù)的可能,這個(gè)算法較大化了某些東西,保證更優(yōu)擬合,事實(shí)證明它做的很好。因此,利用這個(gè)方法,這個(gè)算法如以下:

利用對(duì)比發(fā)散訓(xùn)練數(shù)據(jù)訓(xùn)練RBM。這是信念網(wǎng)絡(luò)(belief net)的第一層。

生成訓(xùn)練后RBM數(shù)據(jù)的隱藏值,模擬這些隱藏值訓(xùn)練另一個(gè)RBM,這是第二層——將之「堆?!乖诘谝粚又希瑑H在一個(gè)方向上保持權(quán)重直至形成一個(gè)信念網(wǎng)絡(luò)。

根據(jù)信念網(wǎng)絡(luò)需求在多層基礎(chǔ)上重復(fù)步驟2。

如果需要進(jìn)行分類,就添加一套隱藏單元,對(duì)應(yīng)分類標(biāo)志,并改變喚醒-休眠算法「微調(diào)」權(quán)重。這樣非監(jiān)督式與監(jiān)督式的組合也經(jīng)常叫做半監(jiān)督式學(xué)習(xí)。

Hinton引入的層式預(yù)訓(xùn)練

這篇論文展示了深度信念網(wǎng)絡(luò)(DBNs)對(duì)于標(biāo)準(zhǔn)化MNIST字符識(shí)別數(shù)據(jù)庫(kù)有著完美的表現(xiàn),超越了僅有幾層的普通神經(jīng)網(wǎng)絡(luò)。Yoshua Bengio等在這項(xiàng)工作后于2007年提出了「深層網(wǎng)絡(luò)冗余式逐層訓(xùn)練( “Greedy Layer-Wise Training of Deep Networks)」,其中他們表達(dá)了一個(gè)強(qiáng)有力的論點(diǎn),深度機(jī)器學(xué)習(xí)方法(也就是有著多重處理步驟的方法,或者有著數(shù)據(jù)等級(jí)排列特征顯示)在復(fù)雜問題上比淺顯方法更加有效(雙層ANNs或向量支持機(jī)器)。

關(guān)于非監(jiān)督式預(yù)訓(xùn)練的另一種看法,利用自動(dòng)代碼取代RBM。

他們還提出了為什么附加非監(jiān)督式預(yù)訓(xùn)練,并總結(jié)這不僅僅以更優(yōu)化的方式初始權(quán)重,而且更加重要的是導(dǎo)致了更有用的可學(xué)習(xí)數(shù)據(jù)顯示,讓算法可以有更加普遍化的模型。實(shí)際上,利用RBM并不是那么重要——普通神經(jīng)網(wǎng)絡(luò)層的非監(jiān)督式預(yù)訓(xùn)練利用簡(jiǎn)單的自動(dòng)代碼層反向傳播證明了其有效性。同樣的,與此同時(shí),另一種叫做分散編碼的方法也表明,非監(jiān)督式特征學(xué)習(xí)對(duì)于改進(jìn)監(jiān)督式學(xué)習(xí)的性能非常有力。

因此,關(guān)鍵在于有著足夠多的顯示層,這樣優(yōu)良的高層數(shù)據(jù)顯示能夠被學(xué)習(xí)——與傳統(tǒng)的手動(dòng)設(shè)計(jì)一些特征提取步驟并以提取到的特征進(jìn)行機(jī)器學(xué)習(xí)方式完全不同。Hinton與Bengio的工作有著實(shí)踐上的證明,但是更重要的是,展示了深層神經(jīng)網(wǎng)絡(luò)并不能被訓(xùn)練好的假設(shè)是錯(cuò)誤的。LeCun已經(jīng)在整個(gè)九十年代證明了CNN,但是大部分研究團(tuán)體卻拒絕接受。Bengio與Yann LeCun一起,在「實(shí)現(xiàn)AI的算法(Scaling Algorithms Towards AI)」研究之上證明了他們自己:

「直至最近,許多人相信訓(xùn)練深層架構(gòu)是一個(gè)太過困難的優(yōu)化問題。然而,至少有兩個(gè)不同的方法對(duì)此都很有效:應(yīng)用于卷積神經(jīng)網(wǎng)絡(luò)的簡(jiǎn)單梯度下降[LeCun et al., 1989, LeCun et al., 1998](適用于信號(hào)和圖像),以及近期的逐層非監(jiān)督式學(xué)習(xí)之后的梯度下降[Hinton et al., 2006, Bengio et al., 2007, Ranzato et al., 2006]。深層架構(gòu)的研究仍然處于雛形之中,更好的學(xué)習(xí)算法還有待發(fā)現(xiàn)。從更廣泛的觀點(diǎn)來看待以發(fā)現(xiàn)能夠引出AI的學(xué)習(xí)準(zhǔn)則為目標(biāo)這事已經(jīng)成為指導(dǎo)性觀念。我們希望能夠激發(fā)他人去尋找實(shí)現(xiàn)AI的機(jī)器學(xué)習(xí)方法?!?/p>

他們的確做到了?;蛘咧辽?,他們開始了。盡管深度學(xué)習(xí)還沒有達(dá)到今天山呼海應(yīng)的效果,它已經(jīng)如冰面下的潛流,不容忽視地開始了涌動(dòng)。那個(gè)時(shí)候的成果還不那么引人注意——大部分論文中證明的表現(xiàn)都限于MNIST數(shù)據(jù)庫(kù),一個(gè)經(jīng)典的機(jī)器學(xué)習(xí)任務(wù),成為了十年間算法的標(biāo)準(zhǔn)化基準(zhǔn)。Hinton在2006年發(fā)布的論文展現(xiàn)出驚人的錯(cuò)誤率,在測(cè)試集上僅有1.25%的錯(cuò)誤率,但SVMs已經(jīng)達(dá)到了僅1.4%的錯(cuò)誤率,甚至簡(jiǎn)單的算法在個(gè)位數(shù)上也能達(dá)到較低的錯(cuò)誤率,正如在論文中所提到的,LeCun已經(jīng)在1998年利用CNNs表現(xiàn)出0.95%的錯(cuò)誤率。

因此,在MNIST上做得很好并不是什么大事。意識(shí)到這一點(diǎn),并自信這就是深度學(xué)習(xí)踏上舞臺(tái)的時(shí)刻的Hinton與他的兩個(gè)研究生,Abdel-rahman Mohamed和George Dahl,展現(xiàn)了他們?cè)谝粋€(gè)更具有挑戰(zhàn)性的任務(wù)上的努力:語音識(shí)別( Speech Recognition)。

利用DBN,這兩個(gè)學(xué)生與Hinton做到了一件事,那就是改善了十年間都沒有進(jìn)步的標(biāo)準(zhǔn)語音識(shí)別數(shù)據(jù)集。這是一個(gè)了不起的成就,但是現(xiàn)在回首來看,那只是暗示著即將到來的未來——簡(jiǎn)而言之,就是打破更多的記錄。

蠻力的重要性

上面所描述的算法對(duì)于深度學(xué)習(xí)的出現(xiàn)有著不容置疑的重要性,但是自上世紀(jì)九十年代開始,也有著其他重要組成部分陸續(xù)出現(xiàn):純粹的計(jì)算速度。隨著摩爾定律,計(jì)算機(jī)比起九十年代快了數(shù)十倍,讓大型數(shù)據(jù)集和多層的學(xué)習(xí)更加易于處理。但是甚至這也不夠——CPU開始抵達(dá)速度增長(zhǎng)的上限,計(jì)算機(jī)能力開始主要通過數(shù)個(gè)CPU并行計(jì)算增長(zhǎng)。為了學(xué)習(xí)深度模型中常有的數(shù)百萬個(gè)權(quán)重值,脆弱的CPU并行限制需要被拋棄,并被具有大型并行計(jì)算能力的GPUs所代替。意識(shí)到這一點(diǎn)也是Abdel-rahman Mohamed,George Dahl與Geoff Hinton做到打破語音識(shí)別性能記錄的部分原因:

「由Hinton的深度神經(jīng)網(wǎng)絡(luò)課堂之一所激發(fā),Mohamed開始將它們應(yīng)用于語音——但是深度神經(jīng)網(wǎng)絡(luò)需要巨大的計(jì)算能力,傳統(tǒng)計(jì)算機(jī)顯然達(dá)不到——因此Hinton與Mohamed招募了Dahl。Dahl是Hinton實(shí)驗(yàn)室的學(xué)生,他發(fā)現(xiàn)了如何利用相同的高端顯卡(讓栩栩如生的計(jì)算機(jī)游戲能夠顯示在私人計(jì)算機(jī)上)有效訓(xùn)練并模擬神經(jīng)網(wǎng)絡(luò)?!?/p>

「他們用相同的方法去解決時(shí)長(zhǎng)過短的語音中片段的音素識(shí)別問題,」Hinton說道,「對(duì)比于之前標(biāo)準(zhǔn)化三小時(shí)基準(zhǔn)的方法,他們有了更好的成果?!?/p>

在這個(gè)案例中利用GPU而不是CPU到底能變得有多快很難說清楚,但是同年《Large-scale Deep Unsupervised Learning using Graphics Processors》這篇論文給出了一個(gè)數(shù)字:70倍。是的,70倍,這使得數(shù)以周記的工作可以被壓縮到幾天就完成,甚至是一天。之前研發(fā)了分散式代碼的作者中包括高產(chǎn)的機(jī)器學(xué)習(xí)研究者吳恩達(dá),他逐漸意識(shí)到利用大量訓(xùn)練數(shù)據(jù)與快速計(jì)算的能力在之前被贊同學(xué)習(xí)算法演變愈烈的研究員們低估了。這個(gè)想法在2010年的《Deep Big Simple Neural Nets Excel on Handwritten Digit Recognition》(作者之一J. Schimidhuber正是遞歸LTSM網(wǎng)絡(luò)(recurrent LTSM networks)的投資者)中也得到了大力支持,展示了MNIST數(shù)據(jù)庫(kù)能夠達(dá)到令人驚嘆的0.35%錯(cuò)誤率,并且除去大型神經(jīng)網(wǎng)絡(luò)、輸入的多個(gè)變量、以及有效的反向傳播GPU實(shí)現(xiàn)以外沒有任何特殊的地方。這些想法已經(jīng)存在了數(shù)十年,因此盡管可以說算法的改進(jìn)并不那么重要,但是結(jié)果確實(shí)強(qiáng)烈表明大型訓(xùn)練數(shù)據(jù)集與快速腭化計(jì)算的蠻力方法是一個(gè)關(guān)鍵。

Dahl與Mohamed利用GPU打破記錄是一個(gè)早期且相對(duì)有限的成功,但是它足以激勵(lì)人們,并且對(duì)這兩人來說也為他們帶來了在微軟研究室實(shí)習(xí)的機(jī)會(huì)。在這里,他們可以享受到那時(shí)已經(jīng)出現(xiàn)的計(jì)算領(lǐng)域內(nèi)另一個(gè)趨勢(shì)所帶來的益處:大數(shù)據(jù)。這個(gè)詞語定義寬松,在機(jī)器學(xué)習(xí)的環(huán)境下則很容易理解——大量訓(xùn)練數(shù)據(jù)。大量的訓(xùn)練數(shù)據(jù)非常重要,因?yàn)闆]有它神經(jīng)網(wǎng)絡(luò)仍然不能做到很好——它們有些過擬合了(完美適用于訓(xùn)練數(shù)據(jù),但無法推廣到新的測(cè)試數(shù)據(jù))。這說得通——大型神經(jīng)網(wǎng)絡(luò)能夠計(jì)算的復(fù)雜度需要許多數(shù)據(jù)來使它們避免學(xué)習(xí)訓(xùn)練集中那些不重要的方面——這也是過去研究者面對(duì)的主要難題。因此現(xiàn)在,大型公司的計(jì)算與數(shù)據(jù)集合能力證明了其不可替代性。這兩個(gè)學(xué)生在三個(gè)月的實(shí)習(xí)期中輕易地證明了深度學(xué)習(xí)的能力,微軟研究室也自此成為了深度學(xué)習(xí)語音識(shí)別研究的前沿地帶。

微軟不是一個(gè)意識(shí)到深度學(xué)習(xí)力量的大公司(盡管起初它很靈巧)。Navdeep Jaitly是Hinton的另一個(gè)學(xué)生,2011年曾在谷歌當(dāng)過暑假實(shí)習(xí)生。他致力于谷歌的語音識(shí)別項(xiàng)目,通過結(jié)合深度學(xué)習(xí)能夠讓他們現(xiàn)存的設(shè)備大大提高。修正后的方法不久就加強(qiáng)了安卓的語音識(shí)別技術(shù),替代了許多之前的解決方案。

除了博士實(shí)習(xí)生給大公司的產(chǎn)品帶來的深刻影響之外,這里最著名的是兩家公司都在用相同的方法——這方法對(duì)所有使用它的人都是開放的。實(shí)際上,微軟和谷歌的工作成果,以及IBM和Hinton實(shí)驗(yàn)室的工作成果,在2012 年發(fā)布了令人印象深刻的名為「深層神經(jīng)網(wǎng)絡(luò)語音識(shí)別的聲學(xué)建模:分享四個(gè)研究小組的觀點(diǎn)」的文章。

這四個(gè)研究小組——有三個(gè)是來自企業(yè),確定能從傷腦筋的深度學(xué)習(xí)這一新興技術(shù)專利中獲益,而大學(xué)研究小組推廣了技術(shù)——共同努力并將他們的成果發(fā)布給更廣泛的研究社區(qū)。如果有什么理想的場(chǎng)景讓行業(yè)接受研究中的觀念,似乎就是這一刻了。

這并不是說公司這么做是為了慈善。這是他們所有人探索如何把技術(shù)商業(yè)化的開始,其中更為突出的是谷歌。但是也許并非Hinton,而是吳恩達(dá)造成了這一切,他促使公司成為世界較大的商業(yè)化采用者和技術(shù)用戶者。在2011年,吳恩達(dá)在巡視公司時(shí)偶遇到了傳說中的谷歌人Jeff Dean,聊了一些他用谷歌的計(jì)算資源來訓(xùn)練神經(jīng)網(wǎng)絡(luò)所做的努力。

這使Dean著迷,于是與吳恩達(dá)一起創(chuàng)建了谷歌大腦(Google Brain)——努力構(gòu)建真正巨大的神經(jīng)網(wǎng)絡(luò)并且探索它們能做什么。這項(xiàng)工作引發(fā)了一個(gè)規(guī)模前所未有的無監(jiān)督式神經(jīng)網(wǎng)絡(luò)學(xué)習(xí)——16000個(gè)CPU核,驅(qū)動(dòng)高達(dá)10億權(quán)重的學(xué)習(xí)(作為比較,Hinton在2006年突破性的DBN大約有100萬權(quán)重)。神經(jīng)網(wǎng)絡(luò)在YouTube視頻上被訓(xùn)練,完全無標(biāo)記,并且學(xué)著在這些視頻中去辨認(rèn)最平常的物體——而神經(jīng)網(wǎng)絡(luò)對(duì)于貓的發(fā)現(xiàn),引起了互聯(lián)網(wǎng)的集體歡樂。

谷歌最著名的神經(jīng)網(wǎng)絡(luò)學(xué)習(xí)貓。這是輸入到一個(gè)神經(jīng)元中較佳的一張。

它很可愛,也很有用。正如他們常規(guī)發(fā)表的一篇論文中所報(bào)道的,由模型學(xué)習(xí)的特征能用來記錄標(biāo)準(zhǔn)的計(jì)算機(jī)視覺基準(zhǔn)的設(shè)置性能。

這樣一來,谷歌訓(xùn)練大規(guī)模的神經(jīng)網(wǎng)絡(luò)的內(nèi)部工具誕生了,自此他們僅需繼續(xù)發(fā)展它。深度學(xué)習(xí)研究的浪潮始于2006年,現(xiàn)在已經(jīng)確定進(jìn)入行業(yè)使用。

深度學(xué)習(xí)的上升

當(dāng)深度學(xué)習(xí)進(jìn)入行業(yè)使用時(shí),研究社區(qū)很難保持平靜。有效的利用GPU和計(jì)算能力的發(fā)現(xiàn)是如此重要,它讓人們檢查長(zhǎng)久存疑的假設(shè)并且問一些也許很久之前被提及過的問題——也就是,反向傳播到底為何沒什么用呢?為什么舊的方法不起作用,而不是新的方法能奏效,這樣的問題觀點(diǎn)讓Xavier Glort 和 Yoshua Bengio在2010年寫了「理解訓(xùn)練深度前饋神經(jīng)網(wǎng)絡(luò)的難點(diǎn)」(Understanding the difficulty of training deep feedforward neural networks)一文。

在文中,他們討論了兩個(gè)有重大意義的發(fā)現(xiàn):

為神經(jīng)網(wǎng)絡(luò)中神經(jīng)元選取的特定非線性激活函數(shù),對(duì)性能有巨大影響,而默認(rèn)使用的函數(shù)不是較好的選擇。

相對(duì)于隨機(jī)選取權(quán)重,不考慮神經(jīng)層的權(quán)重就隨機(jī)選取權(quán)重的問題要大得多。以往消失的梯度問題重現(xiàn),根本上,由于反向傳播引入一系列乘法,不可避免地導(dǎo)致給前面的神經(jīng)層帶來細(xì)微的偏差。就是這樣,除非依據(jù)所在的神經(jīng)層不同分別選取不同的權(quán)重 ——否則很小的變化會(huì)引起結(jié)果巨大變化。

不同的激活函數(shù)。ReLU是**修正線性單元**

第二點(diǎn)的結(jié)論已經(jīng)很清楚了,但是第一點(diǎn)提出了這樣的問題:『然而,什么是較好的激活函數(shù)?』有三個(gè)不同的團(tuán)隊(duì)研究了這個(gè)問題:LeCun所在的團(tuán)隊(duì),他們研究的是「針對(duì)對(duì)象識(shí)別較好的多級(jí)結(jié)構(gòu)是什么?」;另一組是Hinton所在的團(tuán)隊(duì),研究「修正的線性單元改善受限玻爾茲曼機(jī)器」;第三組是Bengio所在的團(tuán)隊(duì)——「深度稀缺的修正神經(jīng)網(wǎng)絡(luò)」。他們都發(fā)現(xiàn)驚人的相似結(jié)論:近乎不可微的、十分簡(jiǎn)單的函數(shù)f(x)=max(0,x)似乎是較好的。令人吃驚的是,這個(gè)函數(shù)有點(diǎn)古怪——它不是嚴(yán)格可微的,確切地說,在零點(diǎn)不可微,因此 就 數(shù)學(xué)而言論文看起來很糟糕。但是,清楚的是零點(diǎn)是很小的數(shù)學(xué)問題——更嚴(yán)重的問題是為什么這樣一個(gè)零點(diǎn)兩側(cè)導(dǎo)數(shù)都是常數(shù)的簡(jiǎn)單函數(shù),這么好用。答案還未揭曉,但一些想法看起來已經(jīng)成型:

修正的激活導(dǎo)致了表征稀疏,這意味著在給定輸入時(shí),很多神經(jīng)元實(shí)際上最終需要輸出非零值。這些年的結(jié)論是,稀疏對(duì)深度學(xué)習(xí)十分有利,一方面是由于它用更具魯棒性的方式表征信息,另一方面由于它帶來極高的計(jì)算效率(如果大多數(shù)的神經(jīng)元在輸出零,實(shí)際上就可以忽略它們,計(jì)算也就更快)。順便提一句,計(jì)算神經(jīng)科學(xué)的研究者首次在大腦視覺系統(tǒng)中引入稀疏計(jì)算,比機(jī)器學(xué)習(xí)的研究早了10年。

相比指數(shù)函數(shù)或者三角函數(shù),簡(jiǎn)單的函數(shù)及其導(dǎo)數(shù),使它能非??斓毓ぷ?。當(dāng)使用GPU時(shí),這就不僅僅是一個(gè)很小的改善,而是十分重要,因?yàn)檫@能規(guī)?;窠?jīng)網(wǎng)絡(luò)以很好地完成極具挑戰(zhàn)的問題。

后來吳恩達(dá)聯(lián)合發(fā)表的「修正的非線性改善神經(jīng)網(wǎng)絡(luò)的語音模型 」(Rectifier Nonlinearities Improve Neural Network Acoustic Models)一文,也證明了ReLU導(dǎo)數(shù)為常數(shù)0或1對(duì)學(xué)習(xí)并無害處。實(shí)際上,它有助于避免梯度消失的問題,而這正是反向傳播的禍根。此外,除了生成更稀疏的表征,它還能生成更發(fā)散的表征——這樣就可以結(jié)合多個(gè)神經(jīng)元的多重值,而不局限于從單個(gè)神經(jīng)元中獲取有意義的結(jié)論。

目前,結(jié)合2006年以來的這些發(fā)現(xiàn),很清楚的是非監(jiān)督預(yù)訓(xùn)練對(duì)深度學(xué)習(xí)來說不是必要的。雖然,它的確有幫助,但是在某些情況下也表明,純粹的監(jiān)督學(xué)習(xí)(有正確的初始權(quán)重規(guī)模和激活函數(shù))能超越含非監(jiān)督訓(xùn)練的學(xué)習(xí)方式。那么,到底為什么基于反向傳播的純監(jiān)督學(xué)習(xí)在過去表現(xiàn)不佳?Geoffrey Hinton總結(jié)了目前發(fā)現(xiàn)的四個(gè)方面問題:

帶標(biāo)簽的數(shù)據(jù)集很小,只有現(xiàn)在的千分之一.

計(jì)算性能很慢,只有現(xiàn)在的百萬分之一.

權(quán)重的初始化方式笨拙.

使用了錯(cuò)誤的非線性模型。

好了,就到這里了。深度學(xué)習(xí)。數(shù)十年研究的積累,總結(jié)成一個(gè)公式就是:

深度學(xué)習(xí)=許多訓(xùn)練數(shù)據(jù)+并行計(jì)算+規(guī)?;?、靈巧的的算法

我希望我是第一個(gè)提出這個(gè)賞心悅目的方程的,但是看起來有人走在我前面了。

更不要說這里就是希望弄清楚這點(diǎn)。差遠(yuǎn)了!被想通的東西剛好是相反的:人們的直覺經(jīng)常出錯(cuò),尤其是一些看似沒有問題的決定及假設(shè)通常都是沒有根據(jù)的。問簡(jiǎn)單的問題,嘗試簡(jiǎn)單的東西——這些對(duì)于改善的技術(shù)有很大的幫助。其實(shí)這一直都在發(fā)生,我們看到更多的想法及方法在深度學(xué)習(xí)領(lǐng)域中被發(fā)掘、被分享。例如 G. E. Hinton等的「透過預(yù)防特征檢測(cè)器的互相適應(yīng)改善神經(jīng)網(wǎng)絡(luò)」( Improving neural networks by preventing co-adaptation of feature detectors)。

其構(gòu)思很簡(jiǎn)單:為了避免過度擬合,我們可以隨機(jī)假裝在訓(xùn)練當(dāng)中有些神經(jīng)元并不在那兒。想法雖然非常簡(jiǎn)單——被稱為丟棄法(dropout)——但對(duì)于實(shí)施非常強(qiáng)大的集成學(xué)習(xí)方法又非常有效,這意味著我們可以在訓(xùn)練數(shù)據(jù)中實(shí)行多種不同的學(xué)習(xí)方法。隨機(jī)森林——一種在當(dāng)今機(jī)器學(xué)習(xí)領(lǐng)域中占主導(dǎo)地位的方法——主要就是得益于集成學(xué)習(xí)而非常有效。訓(xùn)練多個(gè)不同的神經(jīng)網(wǎng)絡(luò)是可能的,但它在計(jì)算上過于昂貴,而這個(gè)簡(jiǎn)單的想法在本質(zhì)上也可取得相同的結(jié)果,而且性能也可有顯著提高。

然而,自2006年以來的所有這些研究發(fā)現(xiàn)都不是促使計(jì)算機(jī)視覺及其他研究機(jī)構(gòu)再次尊重神經(jīng)網(wǎng)絡(luò)的原因。這個(gè)原因遠(yuǎn)沒有看來的高尚:在現(xiàn)代競(jìng)爭(zhēng)的基準(zhǔn)上完全摧毀其他非深度學(xué)習(xí)的方法。Geoffrey Hinton召集與他共同寫丟棄法的兩位作家,Alex Krizhevsky 與 Ilya Sutskever,將他們所發(fā)現(xiàn)的想法在ILSVRC-2012計(jì)算機(jī)視覺比賽中創(chuàng)建了一個(gè)條目。

對(duì)于我來說,了解他們的工作是非常驚人的,他們的「使用深度卷積神經(jīng)網(wǎng)絡(luò)在ImageNet上分類」(ImageNet Classification with deep convolutional neural networks)一文其實(shí)就是將一些很舊的概念(例如卷積神經(jīng)網(wǎng)絡(luò)的池化及卷積層,輸入數(shù)據(jù)的變化)與一些新的關(guān)鍵觀點(diǎn)(例如十分高性能的GPU、ReLU神經(jīng)元、丟棄法等)重新組合,而這點(diǎn),正是這一點(diǎn),就是現(xiàn)代深度網(wǎng)絡(luò)的所有深意了。但他們?nèi)绾巫龅降哪兀?/p>

遠(yuǎn)比下一個(gè)最近的條目好:它們的誤差率是15.3%,第二個(gè)最近的是26.2%。在這點(diǎn)上——第一個(gè)及一個(gè)在比賽中的CNN條目——對(duì)于CNNs及深度學(xué)習(xí)整體來說是一個(gè)無可爭(zhēng)議的標(biāo)志,對(duì)于計(jì)算機(jī)視覺,它應(yīng)該被認(rèn)真對(duì)待。如今,幾乎所有的比賽條目都是CNNs——這就是Yann LeCun自1989年以來在上面花費(fèi)大量心血的神經(jīng)網(wǎng)絡(luò)模型。還記得上世紀(jì)90年代由Sepp Hochreiter 及 Jürgen Schmidhuber為了解決反向傳播問題而開發(fā)的LSTM循環(huán)神經(jīng)網(wǎng)絡(luò)嗎?這些在現(xiàn)在也是的連續(xù)任務(wù)比如語音處理的處理方法。

這就是轉(zhuǎn)折點(diǎn)。一波對(duì)于其可能發(fā)展的狂歡在其無可否認(rèn)的成績(jī)中達(dá)到了高潮,這遠(yuǎn)遠(yuǎn)超過了其他已知方法所能處理的。這就是我們?cè)诘谝徊糠珠_頭所描寫的山呼海應(yīng)比喻的起點(diǎn),而且它到如今還一直在增長(zhǎng),強(qiáng)化。深度學(xué)習(xí)就在這兒,我們看不到寒冬。

我們列舉了對(duì)深度學(xué)習(xí)的發(fā)展做出重要貢獻(xiàn)的人物。我相信我不需要再指出自從2012年以來其飛漲的趨勢(shì)了。

后記:現(xiàn)狀

如果這是一部電影,2012年ImageNet比賽將是其高潮,而現(xiàn)在在電影結(jié)束的時(shí)候,我們將會(huì)出現(xiàn)這幾個(gè)字:「他們?nèi)缃裨谀睦铩?。Yann Lecun:Facebook; Geoffrey Hinton: 谷歌; 吳恩達(dá): Coursera、谷歌、百度; Bengi、Schmidhuber 及 Hochreiter 依然還留在學(xué)術(shù)界——但我們可以很容易推測(cè),這個(gè)領(lǐng)域?qū)?huì)有更多的引用及畢業(yè)生。

雖然深度學(xué)習(xí)的理念及成績(jī)令人振奮,但當(dāng)我在寫這幾篇文章的時(shí)候,我也不由自主地被他們所感動(dòng),他們?cè)谝粋€(gè)幾乎被人遺棄的領(lǐng)域里深耕數(shù)十年,他們現(xiàn)在富裕、成功,但重要的是他們?nèi)缃窀_信自己的研究。這些人的思想依然保持開放,而這些大公司也一直在開源他們的深度學(xué)習(xí)模型,猶如一個(gè)由工業(yè)界領(lǐng)導(dǎo)研究界的理想國(guó)。多美好的故事啊啊。

我愚蠢的以為我可以在這一部分寫一個(gè)過去幾年讓人印象深刻的成果總結(jié),但在此,我清楚知道我已經(jīng)沒有足夠的空間來寫這些??赡苡幸惶煳視?huì)繼續(xù)寫第五部分,那就可以完成這個(gè)故事了。但現(xiàn)在,讓我提供以下一個(gè)簡(jiǎn)短的清單:

1.LTSM RNNs的死灰復(fù)燃以及分布式表征的代表

去年的結(jié)果??纯窗桑?/p>

2.利用深度學(xué)習(xí)來加強(qiáng)學(xué)習(xí)

3.附加外部可讀寫存儲(chǔ)

參考文獻(xiàn):

Kate Allen. How a Toronto professor’s research revolutionized artificial intelligence Science and Technology reporter, Apr 17 2015 http://www.thestar.com/news/world/2015/04/17/how-a-toronto-professors-research-revolutionized-artificial-intelligence.html

Hinton, G. E., Osindero, S., & Teh, Y. W. (2006). A fast learning algorithm for deep belief nets. Neural computation, 18(7), 1527-1554.

Hinton, G. E. (2002). Training products of experts by minimizing contrastive divergence. Neural computation, 14(8), 1771-1800.

Bengio, Y., Lamblin, P., Popovici, D., & Larochelle, H. (2007). Greedy layer-wise training of deep networks. Advances in neural information processing systems, 19, 153.

Bengio, Y., & LeCun, Y. (2007). Scaling learning algorithms towards AI. Large-scale kernel machines, 34(5).

Mohamed, A. R., Sainath, T. N., Dahl, G., Ramabhadran, B., Hinton, G. E., & Picheny, M. (2011, May). Deep belief networks using discriminative features for phone recognition. In Acoustics, Speech and Signal Processing (ICASSP), 2011 IEEE International Conference on (pp. 5060-5063). IEEE.

November 26, 2012. Leading breakthroughs in speech recognition software at Microsoft, Google, IBM Source: http://news.utoronto.ca/leading-breakthroughs-speech-recognition-software-microsoft-google-ibm

Raina, R., Madhavan, A., & Ng, A. Y. (2009, June). Large-scale deep unsupervised learning using graphics processors. In Proceedings of the 26th annual international conference on machine learning (pp. 873-880). ACM.

Claudiu Ciresan, D., Meier, U., Gambardella, L. M., & Schmidhuber, J. (2010). Deep big simple neural nets excel on handwritten digit recognition. arXiv preprint arXiv:1003.0358.

Hinton, G., Deng, L., Yu, D., Dahl, G. E., Mohamed, A. R., Jaitly, N., … & Kingsbury, B. (2012). Deep neural networks for acoustic modeling in speech recognition: The shared views of four research groups. Signal Processing Magazine, IEEE, 29(6), 82-97.

Le, Q. V. (2013, May). Building high-level features using large scale unsupervised learning. In Acoustics, Speech and Signal Processing (ICASSP), 2013 IEEE International Conference on (pp. 8595-8598). IEEE. ?

Glorot, X., & Bengio, Y. (2010). Understanding the difficulty of training deep feedforward neural networks. In International conference on artificial intelligence and statistics (pp. 249-256).

Jarrett, K., Kavukcuoglu, K., Ranzato, M. A., & LeCun, Y. (2009, September). What is the best multi-stage architecture for object recognition?. In Computer Vision, 2009 IEEE 12th International Conference on (pp. 2146-2153). IEEE.

Nair, V., & Hinton, G. E. (2010). Rectified linear units improve restricted boltzmann machines. In Proceedings of the 27th International Conference on Machine Learning (ICML-10) (pp. 807-814).

Glorot, X., Bordes, A., & Bengio, Y. (2011). Deep sparse rectifier neural networks. In International Conference on Artificial Intelligence and Statistics (pp. 315-323).

Maas, A. L., Hannun, A. Y., & Ng, A. Y. (2013, June). Rectifier nonlinearities improve neural network acoustic models. In Proc. ICML (Vol. 30).

Hinton, G. E., Srivastava, N., Krizhevsky, A., Sutskever, I., & Salakhutdinov, R. R. (2012). Improving neural networks by preventing co-adaptation of feature detectors. arXiv preprint arXiv:1207.0580.

Krizhevsky, A., Sutskever, I., & Hinton, G. E. (2012). Imagenet classification with deep convolutional neural networks. In Advances in neural information processing systems (pp. 1097-1105).?

http://www.technologyreview.com/news/524026/is-google-cornering-the-market-on-deep-learning/

歡迎加入本站公開興趣群

商業(yè)智能與數(shù)據(jù)分析群

興趣范圍包括各種讓數(shù)據(jù)產(chǎn)生價(jià)值的辦法,實(shí)際應(yīng)用案例分享與討論,分析工具,ETL工具,數(shù)據(jù)倉(cāng)庫(kù),數(shù)據(jù)挖掘工具,報(bào)表系統(tǒng)等全方位知識(shí)

QQ群:81035754

文章版權(quán)歸作者所有,未經(jīng)允許請(qǐng)勿轉(zhuǎn)載,若此文章存在違規(guī)行為,您可以聯(lián)系管理員刪除。

轉(zhuǎn)載請(qǐng)注明本文地址:http://systransis.cn/yun/4344.html

相關(guān)文章

  • AI技術(shù)說:人工智能相關(guān)概念與發(fā)展簡(jiǎn)史

    摘要:如何看待人工智能的本質(zhì)人工智能的飛速發(fā)展又經(jīng)歷了哪些歷程本文就從技術(shù)角度為大家介紹人工智能領(lǐng)域經(jīng)常提到的幾大概念與發(fā)展簡(jiǎn)史。一人工智能相關(guān)概念人工智能就是讓機(jī)器像人一樣的智能會(huì)思考是機(jī)器學(xué)習(xí)深度學(xué)習(xí)在實(shí)踐中的應(yīng)用。 作為近幾年的一大熱詞,人工智能一直是科技圈不可忽視的一大風(fēng)口。隨著智能硬件的迭代,智能家居產(chǎn)品逐步走進(jìn)千家萬戶,語音識(shí)別、圖像識(shí)別等AI相關(guān)技術(shù)也經(jīng)歷了階梯式發(fā)展。如何看待...

    amuqiao 評(píng)論0 收藏0
  • AI技術(shù)說:人工智能相關(guān)概念與發(fā)展簡(jiǎn)史

    摘要:如何看待人工智能的本質(zhì)人工智能的飛速發(fā)展又經(jīng)歷了哪些歷程本文就從技術(shù)角度為大家介紹人工智能領(lǐng)域經(jīng)常提到的幾大概念與發(fā)展簡(jiǎn)史。一人工智能相關(guān)概念人工智能就是讓機(jī)器像人一樣的智能會(huì)思考是機(jī)器學(xué)習(xí)深度學(xué)習(xí)在實(shí)踐中的應(yīng)用。 作為近幾年的一大熱詞,人工智能一直是科技圈不可忽視的一大風(fēng)口。隨著智能硬件的迭代,智能家居產(chǎn)品逐步走進(jìn)千家萬戶,語音識(shí)別、圖像識(shí)別等AI相關(guān)技術(shù)也經(jīng)歷了階梯式發(fā)展。如何看待...

    TANKING 評(píng)論0 收藏0

發(fā)表評(píng)論

0條評(píng)論

最新活動(dòng)
閱讀需要支付1元查看
<