摘要:信息瓶頸理論由耶路撒冷希伯來(lái)大學(xué)的計(jì)算機(jī)與神經(jīng)科學(xué)家等人提出。與我取得聯(lián)系并分享了一篇已提交盲審的論文,論文作者對(duì)信息瓶頸理論的一些發(fā)現(xiàn)作了批判性分析。這是一個(gè)重要更新,指出了信息瓶頸理論的一些局限性。
「信息瓶頸」(Information Bottleneck)理論由耶路撒冷希伯來(lái)大學(xué)的計(jì)算機(jī)與神經(jīng)科學(xué)家 Naftali Tishby 等人提出。該研究有望最終打開(kāi)深度學(xué)習(xí)的黑箱,并解釋人腦的工作原理(參見(jiàn):揭開(kāi)深度學(xué)習(xí)黑箱:希伯來(lái)大學(xué)計(jì)算機(jī)科學(xué)教授提出「信息瓶頸」)。Geoffrey Hinton 曾對(duì)此研究評(píng)論道:「信息瓶頸極其有趣,估計(jì)要再聽(tīng) 10000 遍才能真正理解它,當(dāng)今能聽(tīng)到如此原創(chuàng)的想法非常難得,或許它就是解開(kāi)謎題的那把鑰匙?!?/p>
目前,一篇有關(guān)深度學(xué)習(xí)中信息瓶頸理論的論文《On the information bottleneck theory of deep learning》已提交 ICLR 2018 大會(huì)盲審,然而這篇論文的內(nèi)容主要是指出信息瓶頸理論的局限。該論文已經(jīng)引起了很多人的關(guān)注,有學(xué)者甚至在社交網(wǎng)絡(luò)上評(píng)論道:這篇論文「戳穿了一個(gè)巨大的泡沫」。本文作者 Adrian Colyer 將對(duì)這一工作進(jìn)行解讀。
上周,我們研究了 Schwartz-Viz 和 Tishby 的深度學(xué)習(xí)論文《Opening the Black Box of Deep Neural Networks via Information》,其思想令人贊嘆,從一種新視角展示了深度神經(jīng)網(wǎng)絡(luò)內(nèi)部發(fā)生的一切。Sathiya Keerthi 與我取得聯(lián)系并分享了一篇已提交 ICLR 2018 盲審的論文——《On the information bottleneck theory of deep learning》,論文作者對(duì)信息瓶頸理論的一些發(fā)現(xiàn)作了批判性分析。這是一個(gè)重要更新,指出了信息瓶頸理論的一些局限性。
在這篇論文中,作者首先從再現(xiàn) Schwartz-Viz 和 Tishby 論文中的「信息平面動(dòng)態(tài)」(information plane dynamics)開(kāi)始,接著展開(kāi)進(jìn)一步實(shí)驗(yàn):使用 ReLU 替代激活函數(shù) tanh,觀察有何影響;探索泛化與壓縮之間的聯(lián)系;研究訓(xùn)練期間隨機(jī)性對(duì)壓縮是否重要;以及研究在何種程度上與任務(wù)不相關(guān)的信息也被壓縮。
簡(jiǎn)單來(lái)說(shuō),該論文發(fā)現(xiàn) Schwartz-Viz 和 Tishby 論文中的結(jié)果無(wú)法很好地泛化到其他網(wǎng)絡(luò)架構(gòu):訓(xùn)練期間的兩個(gè)階段依賴于激活函數(shù)的選擇;無(wú)法證明壓縮與泛化之間存在因果關(guān)系;當(dāng)壓縮確實(shí)發(fā)生時(shí),它不一定依賴于來(lái)自隨機(jī)梯度下降(SGD)的隨機(jī)性。
我們的結(jié)果強(qiáng)調(diào)在應(yīng)用信息理論分析深度學(xué)習(xí)系統(tǒng)時(shí)噪聲假設(shè)的重要性,并且通過(guò)展示表征壓縮與泛化性能存在分歧的實(shí)例來(lái)復(fù)雜化深度學(xué)習(xí)的信息瓶頸理論。
下面我們來(lái)更深入地理解
激活函數(shù)選擇的影響
我們的分析起點(diǎn)是發(fā)現(xiàn)改變激活函數(shù)能顯著地改變信息平面中的網(wǎng)絡(luò)軌跡。
作者借助 Schwartz-Vis 和 Tishby 提供的代碼首次再現(xiàn)了我們上周看到的結(jié)果(見(jiàn)下圖 1A),接著改變網(wǎng)絡(luò)以使用 ReLU——修正線性激活函數(shù),最終獲得的信息平面動(dòng)態(tài)請(qǐng)見(jiàn)圖 1B。
我們看到 tanh 激活函數(shù)的相移消失了!
輸入的互信息在所有的 ReLu 層中單調(diào)遞增,沒(méi)有明顯的壓縮階段。因此,非線性函數(shù)的選擇實(shí)質(zhì)上影響了信息平面的動(dòng)態(tài)。
作者使用一個(gè)非常簡(jiǎn)單的三神經(jīng)元網(wǎng)絡(luò)進(jìn)一步探討了這一現(xiàn)象。標(biāo)量高斯輸入分布通過(guò)標(biāo)量第一層權(quán)重 w1 饋送,并通過(guò)神經(jīng)非線性函數(shù) f(·) 傳輸以獲取隱藏單元活動(dòng)。
為了計(jì)算互信息,隱藏單元活動(dòng)被離散化至 30 個(gè)統(tǒng)一的分箱(bin)中,以獲得離散變量。
使用 tanh 非線性函數(shù),互信息先增后降。使用 ReLU 非線性函數(shù),互信息一直呈上升趨勢(shì)。
tanh 函數(shù)權(quán)重較大,飽和時(shí)會(huì)下降,以接近 1 比特的輸入(即分散變量集中于 1 和 -1 周圍的 bin)提供互信息。而使用 ReLU 函數(shù),一半輸入是負(fù)的,聚集在 0 周圍的 bin,而另一半呈高斯分布,熵隨權(quán)重的變化而單調(diào)遞增。因此,tanh 的雙面飽和特性是原始結(jié)果的關(guān)鍵。
……隨著隱藏單元進(jìn)入飽和態(tài),由于用于計(jì)算互信息的分箱(binning)步驟,雙飽和非線性(double-saturating nonlinearities)導(dǎo)致輸入信息的壓縮。我們注意到分箱可以看作是暗中向隱藏層活動(dòng)中添加噪聲:多個(gè) X 映射至一個(gè) bin,這樣 X 和 T 之間的映射不再是完美可逆的。
分箱對(duì)信息理論分析非常關(guān)鍵,「但是,實(shí)踐中噪聲沒(méi)有添加至這些神經(jīng)網(wǎng)絡(luò)的訓(xùn)練或測(cè)試過(guò)程中?!?/p>
tanh 的飽和說(shuō)明互信息下降時(shí)出現(xiàn)了壓縮階段,以及 tanh 網(wǎng)絡(luò)進(jìn)入壓縮階段后訓(xùn)練過(guò)程變慢的原因:部分輸入使非線性函數(shù)出現(xiàn)飽和,減少了反向傳播的誤差梯度。
獨(dú)立于壓縮的泛化
隨后,作者使用信息平面鏡頭進(jìn)一步研究了壓縮和泛化之間的關(guān)系。
……我們利用 student-teacher 設(shè)置(Seung et al.,1992;Advani & Saxe, 2017)下訓(xùn)練的簡(jiǎn)單線性網(wǎng)絡(luò)探索泛化動(dòng)態(tài)的最近結(jié)果。該設(shè)置可以讓我們較精確地計(jì)算網(wǎng)絡(luò)泛化性能和表征的互信息(未經(jīng)分箱),以及直接對(duì)比線性高斯問(wèn)題已知的信息瓶頸邊界。
在信息平面中(上圖 D)我們沒(méi)有觀察到壓縮,盡管網(wǎng)絡(luò)確實(shí)學(xué)習(xí)了一個(gè)可以很好地泛化至任務(wù)的路線圖,并顯示了最小的過(guò)度訓(xùn)練。在實(shí)驗(yàn)中執(zhí)行不同程度的過(guò)擬合表明,信息平面中具有相似行為的網(wǎng)絡(luò)可能具有不同的泛化性能。
這就建立了信息平面中行為與泛化動(dòng)態(tài)之間的分離:壓縮的網(wǎng)絡(luò)可能會(huì)也可能不會(huì)很好地泛化,未壓縮的網(wǎng)絡(luò)也是如此。
隨機(jī)有助于壓縮嗎?
接下來(lái),作者首先研究了導(dǎo)致壓縮的因素,分析了隨機(jī)梯度下降(SGD)和批量梯度下降(BGD)的區(qū)別。SGD 從數(shù)據(jù)集中拿出一個(gè)樣本,并計(jì)算相關(guān)的誤差梯度,而批量梯度下降使用所有樣本的整體誤差:「關(guān)鍵是,在更新中沒(méi)有隨機(jī)或擴(kuò)散性的行為?!?/p>
使用 SGD 和 BGD 對(duì) tanh 和線性網(wǎng)絡(luò)分別進(jìn)行訓(xùn)練,信息平面動(dòng)態(tài)如下:
我們發(fā)現(xiàn)二者的信息動(dòng)態(tài)大體一致,tanh 網(wǎng)絡(luò)對(duì)于兩種方法都有較魯棒的壓縮。因此訓(xùn)練過(guò)程中的隨機(jī)性似乎對(duì)輸入信息的壓縮貢獻(xiàn)不大。該發(fā)現(xiàn)與「壓縮主要原因是雙飽和非線性」的觀點(diǎn)一致。
對(duì)任務(wù)不相關(guān)信息進(jìn)行壓縮
最后的實(shí)驗(yàn)將輸入 X 分割成任務(wù)相關(guān)的輸入和任務(wù)不相關(guān)的輸入。前者貢獻(xiàn)信號(hào),后者貢獻(xiàn)噪聲。因此好的泛化似乎需要忽略噪聲。論文作者發(fā)現(xiàn)當(dāng)任務(wù)相關(guān)的信息發(fā)生擬合時(shí),任務(wù)不相關(guān)的信息發(fā)生壓縮,盡管整體看來(lái)沒(méi)有觀察到輸入出現(xiàn)壓縮階段。
結(jié)果
我們的結(jié)果表明信息平臺(tái)中的壓縮動(dòng)態(tài)不是深層網(wǎng)絡(luò)的普遍特征,但是網(wǎng)絡(luò)使用的非線性函數(shù)對(duì)此有很大影響……信息壓縮可以與尖銳最小值(sharp minima)同時(shí)出現(xiàn);盡管實(shí)驗(yàn)證明在特定設(shè)置中泛化誤差和架構(gòu)有關(guān)系,進(jìn)一步的理論分析證明尖銳最小值也可以實(shí)現(xiàn)很好的泛化效果。
論文:On the Information Bottleneck Theory of Deep Learning
論文鏈接:https://openreview.net/forum?id=ry_WPG-A-
摘要:深度神經(jīng)網(wǎng)絡(luò)的理論與實(shí)踐成果并不匹配,理論無(wú)法解釋深度神經(jīng)網(wǎng)絡(luò)的行為。本論文研究了深度學(xué)習(xí)的信息瓶頸理論(IB),該理論有三個(gè)主要觀點(diǎn):(1)深度網(wǎng)絡(luò)需要兩個(gè)階段:初始擬合階段和后續(xù)壓縮階段;(2)壓縮階段和深度網(wǎng)絡(luò)卓越的泛化性能之間存在因果關(guān)系;(3)壓縮階段由于隨機(jī)梯度下降的擴(kuò)散行為才會(huì)出現(xiàn)。本文中,我們證明了這些觀點(diǎn)通常情況下是錯(cuò)誤的。通過(guò)分析結(jié)果和模擬,我們展示了信息平面軌跡主要使用了一種神經(jīng)非線性函數(shù):雙飽和非線性(double-sided saturating nonlinearities)函數(shù),如 tanh 函數(shù),當(dāng)神經(jīng)激活函數(shù)進(jìn)入飽和態(tài)時(shí),深度網(wǎng)絡(luò)進(jìn)入壓縮階段;而線性激活函數(shù)和單飽和非線性函數(shù),如廣泛使用的 ReLU 就不是這樣。線性神經(jīng)網(wǎng)絡(luò)的泛化誤差動(dòng)態(tài)的近期結(jié)果表明壓縮和泛化之間不存在因果關(guān)系:沒(méi)有壓縮的網(wǎng)絡(luò)也能夠泛化,反之亦然。通過(guò)使用全批量梯度下降代替隨機(jī)梯度下降來(lái)復(fù)現(xiàn)瓶頸理論,我們還證明了壓縮階段不需要訓(xùn)練過(guò)程中的隨機(jī)性。最后,我們證明當(dāng)輸入域包含任務(wù)相關(guān)或不相關(guān)信息的子集時(shí),隱藏的表征(hidden representation)對(duì)任務(wù)不相關(guān)的信息進(jìn)行壓縮,盡管輸入的整體信息隨著訓(xùn)練時(shí)間而單調(diào)遞增,壓縮與擬合過(guò)程并行發(fā)生,而不是在后續(xù)的壓縮階段中出現(xiàn)。
一言以蔽之,我們驗(yàn)證了深度學(xué)習(xí)信息瓶頸理論中的多個(gè)觀點(diǎn)在一般情況下并不正確。
爭(zhēng)議
值得一提的是,在 Open Review 論文平臺(tái)上,「信息瓶頸」理論的提出者 Naftali Tishby 等人也與論文作者展開(kāi)了交鋒。Tishby 表示,這篇新論文重復(fù)和驗(yàn)證了「信息瓶頸」理論先前研究的實(shí)驗(yàn),證實(shí)并強(qiáng)化了這一理論,但同時(shí)又忽略了許多理論和實(shí)驗(yàn)結(jié)果,在許多方面都是有缺陷和誤導(dǎo)性的。?
相關(guān)鏈接
Ravid Shwartz-Ziv 與 Naftali Tishby 2017 年提交的論文《Opening the Black Box of Deep Neural Networks via Information》:https://arxiv.org/abs/1703.00810
原文鏈接:https://blog.acolyer.org/2017/11/24/on-the-information-bottleneck-theory-of-deep-learning/
歡迎加入本站公開(kāi)興趣群商業(yè)智能與數(shù)據(jù)分析群
興趣范圍包括各種讓數(shù)據(jù)產(chǎn)生價(jià)值的辦法,實(shí)際應(yīng)用案例分享與討論,分析工具,ETL工具,數(shù)據(jù)倉(cāng)庫(kù),數(shù)據(jù)挖掘工具,報(bào)表系統(tǒng)等全方位知識(shí)
QQ群:81035754
文章版權(quán)歸作者所有,未經(jīng)允許請(qǐng)勿轉(zhuǎn)載,若此文章存在違規(guī)行為,您可以聯(lián)系管理員刪除。
轉(zhuǎn)載請(qǐng)注明本文地址:http://systransis.cn/yun/4692.html
摘要:我們稱之為啤酒泡沫。是什么讓牛頓這樣的智者也變得如此瘋狂第一,錢多路窄。這些發(fā)生在區(qū)塊鏈領(lǐng)域的監(jiān)管并不是壞事。 不知道大家有沒(méi)有過(guò)倒啤酒的經(jīng)驗(yàn),當(dāng)我們往杯中倒啤酒時(shí),倒得越快,產(chǎn)生的泡沫就越多。這些泡沫很快會(huì)溢出杯外,而杯中的啤酒則會(huì)因泡沫的溢出迅速減少,甚至只留下不到一半。我們稱之為啤酒泡沫。 showImg(https://segmentfault.com/img/bVbggjL?...
摘要:認(rèn)為,深度神經(jīng)網(wǎng)絡(luò)根據(jù)一種被稱為信息瓶頸的過(guò)程在學(xué)習(xí),他和兩位合作者最早在年對(duì)這一過(guò)程進(jìn)行了純理論方面的描述。另外一些研究人員則持懷疑態(tài)度,認(rèn)為信息瓶頸理論不能完全解釋深學(xué)習(xí)的成功。 利用深度神經(jīng)網(wǎng)絡(luò)的機(jī)器已經(jīng)學(xué)會(huì)了交談、開(kāi)車,在玩視頻游戲和下圍棋時(shí)擊敗了世界冠軍,還能做夢(mèng)、畫(huà)畫(huà),幫助進(jìn)行科學(xué)發(fā)現(xiàn),但同時(shí)它們也深深地讓其發(fā)明者困惑,誰(shuí)也沒(méi)有料到所謂的深度學(xué)習(xí)算法能做得這么好。沒(méi)有基本的原則指...
摘要:耶路撒冷希伯來(lái)大學(xué)的計(jì)算機(jī)與神經(jīng)科學(xué)家提出了一項(xiàng)名為信息瓶頸的新理論,有望最終打開(kāi)深度學(xué)習(xí)的黑箱,以及解釋人腦的工作原理。 耶路撒冷希伯來(lái)大學(xué)的計(jì)算機(jī)與神經(jīng)科學(xué)家 Naftali Tishby 提出了一項(xiàng)名為「信息瓶頸」(Information Bottleneck)的新理論,有望最終打開(kāi)深度學(xué)習(xí)的黑箱,以及解釋人腦的工作原理。這一想法是指神經(jīng)網(wǎng)絡(luò)就像把信息擠進(jìn)瓶頸一樣,只留下與一般概念更為...
摘要:創(chuàng)新萌芽期望最頂點(diǎn)下調(diào)預(yù)期至低點(diǎn)回歸理想生產(chǎn)率平臺(tái)。而大數(shù)據(jù)已從頂峰滑落,和云計(jì)算接近谷底。對(duì)于迅速成長(zhǎng)的中國(guó)市場(chǎng),大公司也意味著大數(shù)據(jù)。三家對(duì)大數(shù)據(jù)的投入都是不惜余力的。 非商業(yè)轉(zhuǎn)載請(qǐng)注明作譯者、出處,并保留本文的原始鏈接:http://www.ituring.com.cn/article/177529 董飛,Coursera數(shù)據(jù)工程師。曾先后在創(chuàng)業(yè)公司酷迅,百度基礎(chǔ)架構(gòu)組...
閱讀 3105·2021-08-03 14:05
閱讀 2152·2019-08-29 15:35
閱讀 688·2019-08-29 13:30
閱讀 3176·2019-08-29 13:20
閱讀 2541·2019-08-23 18:15
閱讀 1807·2019-08-23 14:57
閱讀 2224·2019-08-23 13:57
閱讀 1320·2019-08-23 12:10