摘要:在最近的一次大會上,表示,他對反向傳播深表懷疑,并認(rèn)為我的觀點是將它完全摒棄,然后重新開始。相對于對象函數(shù)計算反向傳播。通常,目標(biāo)函數(shù)是預(yù)測分布與實際分布之間差異的量度。所以也許無監(jiān)督的學(xué)習(xí)不需要目標(biāo)函數(shù),但是它仍然可能需要反向傳播。
Geoffrey Hinton終于公開闡述了他對那些早已令許多人惶恐不安的事物的看法。在最近的一次AI大會上,Hinton表示,他對反向傳播“深表懷疑”,并認(rèn)為:“我的觀點是將它完全摒棄,然后重新開始”。
現(xiàn)如今,反向傳播已成為深度學(xué)習(xí)的“面包和黃油”機制。研究人員發(fā)現(xiàn),可以在解決方案中使用任何計算層,的要求就是層必須是可微的。換句話說,我們要能夠計算出層的梯度。
關(guān)于反向傳播有這么幾個問題值得思考。第一個是經(jīng)過計算的梯度是否始終是學(xué)習(xí)的正確方向?直觀感覺這個是有問題的。人們總能發(fā)現(xiàn)問題,其中向著最明顯的方向移動并不總是能夠找到解決方案。因此忽略梯度也可能產(chǎn)生一個解決方案,這也沒什么可意外的。關(guān)于適應(yīng)性觀點與優(yōu)化性觀點之間的區(qū)別,我在之前的文章里闡述過,有興趣的可以查閱。
我們來回顧一下,并試圖以歷史的視角來了解這種反向傳播思想的來源。從歷史上看,機器學(xué)習(xí)源于曲線擬合的一般理解。在線性回歸的具體示例下(即用直線進(jìn)行預(yù)測),計算梯度是求解最小二乘問題的方法。在優(yōu)化問題中,除了使用梯度求解較佳解決方案之外,還有許多其他可供選擇的方法。事實上,隨機梯度下降可能是最基本的優(yōu)化方法之一,所以人們可能認(rèn)為它是一個非常出色的,最簡單的算法之一,而實際上它的性能確實是非常棒的。
大多數(shù)優(yōu)化專家一直認(rèn)為,深度學(xué)習(xí)的高維空間將需要一個非凸(non-convex)的解決方案,因此難以優(yōu)化。然而,由于一些無法解釋的原因,深度學(xué)習(xí)使用隨機梯度下降(SGD)的運行效果非常好。許多研究人員后來提出了許多不同的觀點,以解釋為什么使用SGD時深度學(xué)習(xí)的優(yōu)化效果如此好。一個更具說服力的觀點是,在高維空間中,人們更有可能找到一個鞍點(saddle point)而不是local valley??倳凶銐虻木S度和梯度,指向一條逃逸路線。
?
指南
合成梯度(Synthetic Gradients),一種使層分離的方法,從而使得反向傳播并不總是必不可少,或者使得梯度計算可以被延遲,而這樣方法也同樣被證明是有效的。這個發(fā)現(xiàn)可能是一個暗示,即其他更為通用的事情正在發(fā)生。這就好像任何一種趨向于增量的更新,無論方向如何(在合成梯度的情況下都是隨機的)同樣有效。
還有一個關(guān)于所使用的典型目標(biāo)函數(shù)的問題。相對于對象函數(shù)計算反向傳播。通常,目標(biāo)函數(shù)是預(yù)測分布與實際分布之間差異的量度。通常,有些東西導(dǎo)出Kullback-Liebler散度或者像Wassertsein這樣的其他相似性分布測量。然而,在這些相似性計算中,在監(jiān)督訓(xùn)練中存在“標(biāo)簽”。在同一次采訪中,Hinton對無監(jiān)督的學(xué)習(xí)表示:“我懷疑這意味著擺脫反向傳播。”他進(jìn)一步說,“我們顯然不需要所有的標(biāo)簽數(shù)據(jù)?!?/p>
簡而言之,如果你沒有目標(biāo)函數(shù),則不能進(jìn)行反向傳播。如果你沒有預(yù)測值和標(biāo)記(實際或訓(xùn)練數(shù)據(jù))值之間的度量,則無法得到目標(biāo)函數(shù)。所以要實現(xiàn)“無監(jiān)督學(xué)習(xí)”,你可能會拋棄計算梯度的能力。
讓我們從更廣泛的視角來檢驗?zāi)繕?biāo)函數(shù)的目的。目標(biāo)函數(shù)是衡量內(nèi)部模型在預(yù)測其環(huán)境方面的準(zhǔn)確程度。任何智能自動化過程的目的是制定較精確的內(nèi)部模型。然而,沒有任何東西需要在任何時候或不斷地進(jìn)行模型與環(huán)境之間的測量。也就是說,自動化過程不需要執(zhí)行反向傳播來學(xué)習(xí)。自動化過程可能是做一些其他事情以改進(jìn)其內(nèi)部模型。
?
其他一些東西,我們稱之為“想象或夢想”,不需要直接的現(xiàn)實驗證。我們目前最典型的就是生成對抗網(wǎng)絡(luò)(GAN)。GAN由兩個網(wǎng)絡(luò)組成,一個生成器和一個鑒別器。可以將鑒別器視為與目標(biāo)函數(shù)一致的神經(jīng)網(wǎng)絡(luò)。也就是說,它使內(nèi)部生成器網(wǎng)絡(luò)得到現(xiàn)實驗證。生成器是一種重現(xiàn)不斷趨近現(xiàn)實的自動化過程。GAN使用反向傳播工作,它執(zhí)行無監(jiān)督學(xué)習(xí)。所以也許無監(jiān)督的學(xué)習(xí)不需要目標(biāo)函數(shù),但是它仍然可能需要反向傳播。
?
另一種觀察無監(jiān)督學(xué)習(xí)的方法是一種元學(xué)習(xí)(meta-learning)。系統(tǒng)不需要監(jiān)督訓(xùn)練數(shù)據(jù)的一種可能性是,學(xué)習(xí)算法已經(jīng)開發(fā)了自己的內(nèi)部模型,以便較好地進(jìn)行。換句話說,仍然有一些監(jiān)督,它恰好隱含在學(xué)習(xí)算法中。學(xué)習(xí)算法如何賦予這種能力是一個很大的未知數(shù)。
?
總而言之,現(xiàn)在說我們是否可以擺脫反向傳播還為時尚早。我們當(dāng)然可以使用一個不太嚴(yán)格的版本(即合成梯度或其他啟發(fā)式算法)。然而,漸近學(xué)習(xí)(gradual learning)或者說爬山算法(hill climbing)似乎仍然是一個必要條件。我當(dāng)然會很有興趣找到任何使?jié)u近學(xué)習(xí)或爬山算法無效的研究。事實上,這類似于宇宙的行為,更具體地說就是熱力學(xué)第二定律。更具體地說,該熵始終增加。信息引擎將降低自己的熵,以換取環(huán)境中的熵增加。因此,沒有辦法完全避免梯度。這樣做將需要一些“信息永動機”(perpetual motion information machine)。
歡迎加入本站公開興趣群商業(yè)智能與數(shù)據(jù)分析群
興趣范圍包括各種讓數(shù)據(jù)產(chǎn)生價值的辦法,實際應(yīng)用案例分享與討論,分析工具,ETL工具,數(shù)據(jù)倉庫,數(shù)據(jù)挖掘工具,報表系統(tǒng)等全方位知識
QQ群:81035754
文章版權(quán)歸作者所有,未經(jīng)允許請勿轉(zhuǎn)載,若此文章存在違規(guī)行為,您可以聯(lián)系管理員刪除。
轉(zhuǎn)載請注明本文地址:http://systransis.cn/yun/4606.html
摘要:然而反向傳播自誕生起,也受到了無數(shù)質(zhì)疑。主要是因為,反向傳播機制實在是不像大腦。他集結(jié)了來自和多倫多大學(xué)的強大力量,對這些替代品進(jìn)行了一次評估。號選手,目標(biāo)差傳播,。其中來自多倫多大學(xué)和,一作和來自,來自多倫多大學(xué)。 32年前,人工智能、機器學(xué)習(xí)界的泰斗Hinton提出反向傳播理念,如今反向傳播已經(jīng)成為推動深度學(xué)習(xí)爆發(fā)的核心技術(shù)。然而反向傳播自誕生起,也受到了無數(shù)質(zhì)疑。這些質(zhì)疑來自各路科學(xué)家...
摘要:近幾年以卷積神經(jīng)網(wǎng)絡(luò)有什么問題為主題做了多場報道,提出了他的計劃。最初提出就成為了人工智能火熱的研究方向。展現(xiàn)了和玻爾茲曼分布間驚人的聯(lián)系其在論文中多次稱,其背后的內(nèi)涵引人遐想。 Hinton 以深度學(xué)習(xí)之父 和 神經(jīng)網(wǎng)絡(luò)先驅(qū) 聞名于世,其對深度學(xué)習(xí)及神經(jīng)網(wǎng)絡(luò)的諸多核心算法和結(jié)構(gòu)(包括深度學(xué)習(xí)這個名稱本身,反向傳播算法,受限玻爾茲曼機,深度置信網(wǎng)絡(luò),對比散度算法,ReLU激活單元,Dropo...
摘要:有幾次,人工智能死在人工神經(jīng)網(wǎng)絡(luò)上。在過去十年中,他一直在舉辦為期一周的有關(guān)神經(jīng)網(wǎng)絡(luò)的暑期學(xué)校,我曾經(jīng)拜訪過。神經(jīng)網(wǎng)絡(luò)壓縮信息之后,這些信息無法復(fù)原。 魔法已經(jīng)進(jìn)入這個世界。如今,許多美國人口袋里裝著薄薄的黑色平板,這些機器接入遙遠(yuǎn)的數(shù)字云和衛(wèi)星,它們解碼語言、通過攝像頭觀察并標(biāo)記現(xiàn)實,挖掘個人數(shù)據(jù),它們以某種方式理解、預(yù)測著我們的心愿。傾聽、幫助著人類。因為與多倫多大學(xué)有個約會,這個夏天,...
摘要:多加了這兩層卷積層和匯集層是卷積神經(jīng)網(wǎng)絡(luò)和普通舊神經(jīng)網(wǎng)絡(luò)的主要區(qū)別。卷積神經(jīng)網(wǎng)絡(luò)的操作過程那時,卷積的思想被稱作權(quán)值共享,也在年和關(guān)于反向傳播的延伸分析中得到了切實討論。 導(dǎo)讀:這是《神經(jīng)網(wǎng)絡(luò)和深度學(xué)習(xí)簡史》第二部分,這一部分我們會了解BP算法發(fā)展之后一些取得迅猛發(fā)展的研究,稍后我們會看到深度學(xué)習(xí)的關(guān)鍵性基礎(chǔ)。神經(jīng)網(wǎng)絡(luò)獲得視覺隨著訓(xùn)練多層神經(jīng)網(wǎng)絡(luò)的謎題被揭開,這個話題再一次變得空前熱門,羅森...
摘要:本文試圖揭開讓人迷惘的云霧,領(lǐng)悟背后的原理和魅力,品嘗這一頓盛宴。當(dāng)然,激活函數(shù)本身很簡單,比如一個激活的全連接層,用寫起來就是可是,如果我想用的反函數(shù)來激活呢也就是說,你得給我解出,然后再用它來做激活函數(shù)。 由深度學(xué)習(xí)先驅(qū) Hinton 開源的 Capsule 論文 Dynamic Routing Between Capsules,無疑是去年深度學(xué)習(xí)界最熱點的消息之一。得益于各種媒體的各種...
閱讀 2326·2021-09-22 15:27
閱讀 3176·2021-09-03 10:32
閱讀 3505·2021-09-01 11:38
閱讀 2503·2019-08-30 15:56
閱讀 2219·2019-08-30 13:01
閱讀 1542·2019-08-29 12:13
閱讀 1424·2019-08-26 13:33
閱讀 898·2019-08-26 13:30