摘要:局部最小存在,但是對于目標(biāo)函數(shù)而言,它非常接近全局最小,理論研究結(jié)果表明,一些大函數(shù)可能集中于指標(biāo)臨界點(diǎn)和目標(biāo)函數(shù)之間。
“為了局部泛化,我們需要所有相關(guān)變化的典型范例?!?/p>
深度學(xué)習(xí)是學(xué)習(xí)多層次的表示,相當(dāng)于是多層次的抽象。如果我們能夠?qū)W習(xí)這些多層次的表示,那么我們可以很好地對其泛化。
在上述(釋義)總領(lǐng)全文陳述之后,作者提出了一些不同的人工智能(AI)策略,從以規(guī)則為基礎(chǔ)的系統(tǒng)到深度學(xué)習(xí)系統(tǒng),并指出在哪個層次它們的組件能夠起作用。之后,他給出了從機(jī)器學(xué)習(xí)(ML)向真正人工智能遷移的3個關(guān)鍵點(diǎn):大量數(shù)據(jù),非常靈活的模型,強(qiáng)大的先驗(yàn),而且,因?yàn)榻?jīng)典ML可以處理前兩個關(guān)鍵點(diǎn),所以他的博客是關(guān)于如果處理第三個關(guān)鍵點(diǎn)的。
在從如今的機(jī)器學(xué)習(xí)系統(tǒng)邁向人工智能的道路上,我們需要學(xué)習(xí),泛化,避免維度災(zāi)難的方法,以及解決潛在解釋因素的能力。在解釋為什么非參數(shù)學(xué)習(xí)算法不能實(shí)現(xiàn)真正的人工智能之前,他首先對非參數(shù)下了詳細(xì)的定義。他解釋了為什么以平滑作為經(jīng)典的非參數(shù)方法在高維度下不起作用,之后對維度做了如下解釋:
“如果我們在數(shù)學(xué)上更深入地挖掘,我們學(xué)習(xí)到的是函數(shù)變種的數(shù)量,而不是維度的數(shù)量。在這種情況下,平滑度就是曲線中有多少上升和下降?!?/p>
“一條直線是非常平滑的。一條有升有降的曲線沒那么平滑,但還是平滑的?!?/p>
所以,很顯然,多帶帶使用平滑度并不能避免維度災(zāi)難。事實(shí)上,平滑度甚至不適用與現(xiàn)代的,復(fù)雜的問題,比如計(jì)算機(jī)視覺和自然語言處理。在討論完這種有競爭力的方法(如高斯核)的失敗后,Boney將目光從平滑度上轉(zhuǎn)移,并解釋了它的必要性:
“我們想要達(dá)到非參數(shù),在這個意義上,我們希望隨著數(shù)據(jù)的增多所有函數(shù)能靈活地?cái)U(kuò)展。在神經(jīng)網(wǎng)絡(luò)中,我們根據(jù)數(shù)據(jù)量來改變隱藏單元的個數(shù)。”
他指出,在深度學(xué)習(xí)之中,使用了2個先驗(yàn),即分布式表示和深度架構(gòu)。
為什么使用分布式表示?
“使用分布式表示,可以用線性參數(shù)來表示指數(shù)數(shù)量的區(qū)域。分布式表示的奇妙之處在于可以使用較少的實(shí)例來學(xué)習(xí)非常復(fù)雜的函數(shù)(有很多上升和下降的曲線)。”
在分布式表示中,特征的意義是多帶帶而言的,無論其他特征如何都不會改變。它們之間或許會有些互動,但是大多特征都是獨(dú)立于其他特征學(xué)習(xí)得到的。Boney指出,神經(jīng)網(wǎng)絡(luò)非常善于學(xué)習(xí)表示來捕捉語義方面的東西,它們的泛化能力來源自這些表示。作為本主題的應(yīng)用實(shí)例,他推薦Cristopher Olah的文章,來獲取關(guān)于分布式表示和自然語言處理的知識。
對于深度的含義有許多誤解
“更深的網(wǎng)絡(luò)并不意味著有更高的生產(chǎn)力。更深并不意味著我們能表示更多的函數(shù)。如果我們正在嘗試學(xué)習(xí)的函數(shù)有特定的特征,這些特征由許多操作的部分組成,那么使用深度神經(jīng)網(wǎng)絡(luò)來逼近這些函數(shù)可以得到更好的效果。”
之后Boney又回到原話題。他解釋說,90年代后期神經(jīng)網(wǎng)絡(luò)研究被擱置(再次)的一個原因是優(yōu)化問題是非凸的。80和90年代的工作成果中,神經(jīng)網(wǎng)絡(luò)在局部最小化中得到了一個指數(shù)值,同時還有內(nèi)核機(jī)器的誕生,導(dǎo)致了神經(jīng)網(wǎng)絡(luò)的衰敗,網(wǎng)絡(luò)可能會由于不好的解決方案而失效。最近,我們有證據(jù)證明非凸問題可能不是個問題,這改變了它與神經(jīng)網(wǎng)絡(luò)的關(guān)系。
“上圖展示了一個鞍點(diǎn)。在全局或局部最小區(qū)域,所有方向都上升,在全局或局部較大區(qū)域,所有方向都下降?!?/p>
鞍點(diǎn)
“我們來考慮低維度和高維度下的優(yōu)化問題。在低維度中,確實(shí)存在許多局部最小。但是在高維度情況下,局部最小并不是臨界點(diǎn),也就是對全局來說不是關(guān)鍵點(diǎn)。當(dāng)我們優(yōu)化神經(jīng)網(wǎng)絡(luò)或任何高維度函數(shù)的時候,對于我們大多數(shù)優(yōu)化的軌跡,臨界點(diǎn)(點(diǎn)的導(dǎo)數(shù)是0或接近0)都是鞍點(diǎn)。鞍點(diǎn),不像局部最小,很容易退避?!?/p>
關(guān)于鞍點(diǎn)的直覺是,對于靠近全局最小的局部最小,所有方向都應(yīng)該是上升的;進(jìn)一步下降可能性極小。局部最小存在,但是對于目標(biāo)函數(shù)而言,它非常接近全局最小,理論研究結(jié)果表明,一些大函數(shù)可能集中于指標(biāo)(臨界點(diǎn))和目標(biāo)函數(shù)之間。指標(biāo)相當(dāng)于是各個方向上,下降的方向占所有方向的比例;如果指標(biāo)不是0或1(分別是局部最小和局部較大)的,那么它是一個鞍點(diǎn)。
Boney繼續(xù)說道,已經(jīng)有經(jīng)驗(yàn)可以驗(yàn)證指標(biāo)和目標(biāo)函數(shù)之間的關(guān)系,而沒有任何證據(jù)表明神經(jīng)網(wǎng)絡(luò)優(yōu)化可以得到這些結(jié)果,一些證據(jù)表明,所觀察到的行為可能只是理論結(jié)果。在實(shí)踐中,隨機(jī)梯度下降幾乎總是避開不是局部最小的表面。
這一切都表明,事實(shí)上因?yàn)榘包c(diǎn)的存在,局部最小可能不是問題。
Boney繼續(xù)他關(guān)于鞍點(diǎn)的討論,提出了一些與深度分布式表示工作的其他先驗(yàn);類人學(xué)習(xí)(human learning),半監(jiān)督學(xué)習(xí),多任務(wù)學(xué)習(xí)。然后他列出了一些關(guān)于鞍點(diǎn)的論文。
Rinu Boney寫了篇文章詳細(xì)闡述深度學(xué)習(xí)的驅(qū)動力,包括對鞍點(diǎn)的討論,所有的這些都很難通過簡單的引用和總結(jié)來公正說明。如果想對以上討論點(diǎn)進(jìn)行更深的討論,訪問Boney的博客,自己讀讀這些具有洞察力和良好構(gòu)思的文章吧。
關(guān)于譯者: 劉翔宇,中通軟開發(fā)工程師,關(guān)注機(jī)器學(xué)習(xí)、神經(jīng)網(wǎng)絡(luò)、模式識別。
歡迎加入本站公開興趣群商業(yè)智能與數(shù)據(jù)分析群
興趣范圍包括各種讓數(shù)據(jù)產(chǎn)生價值的辦法,實(shí)際應(yīng)用案例分享與討論,分析工具,ETL工具,數(shù)據(jù)倉庫,數(shù)據(jù)挖掘工具,報表系統(tǒng)等全方位知識
QQ群:81035754
文章版權(quán)歸作者所有,未經(jīng)允許請勿轉(zhuǎn)載,若此文章存在違規(guī)行為,您可以聯(lián)系管理員刪除。
轉(zhuǎn)載請注明本文地址:http://systransis.cn/yun/4350.html
摘要:對所有參數(shù)更新時應(yīng)用同樣的學(xué)習(xí)率梯度由許多偏導(dǎo)數(shù)組成,對應(yīng)著各個參數(shù)的更新。對于偏導(dǎo)數(shù)大的,我們希望配個小的學(xué)習(xí)率給他對于偏導(dǎo)數(shù)小的,我們希望配個大的學(xué)習(xí)率給他,這樣各個參數(shù)都能獲得大致相同的更新幅度,提高網(wǎng)絡(luò)的健壯性。 后續(xù)【DL-CV】更高級的參數(shù)更新/優(yōu)化(二) 【DL-CV】正則化,Dropout【DL-CV】淺談GoogLeNet(咕咕net) 原版SGD的問題 原味版的S...
摘要:我認(rèn)為在大多數(shù)深度學(xué)習(xí)中,算法層面上隨機(jī)梯度的下降是大家所認(rèn)可的。但目前似乎存在兩個問題計(jì)算層面納什平衡達(dá)不到可能會退化。 去年我一直在研究如何更好地調(diào)整GANs中的不足,但因?yàn)橹暗难芯糠较蛑魂P(guān)注了損失函數(shù),完全忽略了如何尋找極小值問題。直到我看到了這篇論文才有所改變:詳解論文: The Numerics of GANs我參考了Mar的三層分析,并在計(jì)算層面上仔細(xì)考慮了這個問題:我們這樣做...
摘要:本文將詳細(xì)解析深度神經(jīng)網(wǎng)絡(luò)識別圖形圖像的基本原理。卷積神經(jīng)網(wǎng)絡(luò)與圖像理解卷積神經(jīng)網(wǎng)絡(luò)通常被用來張量形式的輸入,例如一張彩色圖象對應(yīng)三個二維矩陣,分別表示在三個顏色通道的像素強(qiáng)度。 本文將詳細(xì)解析深度神經(jīng)網(wǎng)絡(luò)識別圖形圖像的基本原理。針對卷積神經(jīng)網(wǎng)絡(luò),本文將詳細(xì)探討網(wǎng)絡(luò) 中每一層在圖像識別中的原理和作用,例如卷積層(convolutional layer),采樣層(pooling layer),...
閱讀 2257·2023-05-11 16:55
閱讀 3541·2021-08-10 09:43
閱讀 2654·2019-08-30 15:44
閱讀 2472·2019-08-29 16:39
閱讀 614·2019-08-29 13:46
閱讀 2040·2019-08-29 13:29
閱讀 952·2019-08-29 13:05
閱讀 718·2019-08-26 13:51