戳穿泡沫：對(duì)「信息瓶頸」理論的批判性分析

xiaodao 發(fā)布于2019-04-25 18:22 / 2712人閱讀

摘要：信息瓶頸理論由耶路撒冷希伯來(lái)大學(xué)的計(jì)算機(jī)與神經(jīng)科學(xué)家等人提出。與我取得聯(lián)系并分享了一篇已提交盲審的論文，論文作者對(duì)信息瓶頸理論的一些發(fā)現(xiàn)作了批判性分析。這是一個(gè)重要更新，指出了信息瓶頸理論的一些局限性。

「信息瓶頸」（Information Bottleneck）理論由耶路撒冷希伯來(lái)大學(xué)的計(jì)算機(jī)與神經(jīng)科學(xué)家 Naftali Tishby 等人提出。該研究有望最終打開(kāi)深度學(xué)習(xí)的黑箱，并解釋人腦的工作原理（參見(jiàn)：揭開(kāi)深度學(xué)習(xí)黑箱：希伯來(lái)大學(xué)計(jì)算機(jī)科學(xué)教授提出「信息瓶頸」）。Geoffrey Hinton 曾對(duì)此研究評(píng)論道：「信息瓶頸極其有趣，估計(jì)要再聽(tīng) 10000 遍才能真正理解它，當(dāng)今能聽(tīng)到如此原創(chuàng)的想法非常難得，或許它就是解開(kāi)謎題的那把鑰匙?！?/p>

目前，一篇有關(guān)深度學(xué)習(xí)中信息瓶頸理論的論文《On the information bottleneck theory of deep learning》已提交 ICLR 2018 大會(huì)盲審，然而這篇論文的內(nèi)容主要是指出信息瓶頸理論的局限。該論文已經(jīng)引起了很多人的關(guān)注，有學(xué)者甚至在社交網(wǎng)絡(luò)上評(píng)論道：這篇論文「戳穿了一個(gè)巨大的泡沫」。本文作者 Adrian Colyer 將對(duì)這一工作進(jìn)行解讀。

上周，我們研究了 Schwartz-Viz 和 Tishby 的深度學(xué)習(xí)論文《Opening the Black Box of Deep Neural Networks via Information》，其思想令人贊嘆，從一種新視角展示了深度神經(jīng)網(wǎng)絡(luò)內(nèi)部發(fā)生的一切。Sathiya Keerthi 與我取得聯(lián)系并分享了一篇已提交 ICLR 2018 盲審的論文——《On the information bottleneck theory of deep learning》，論文作者對(duì)信息瓶頸理論的一些發(fā)現(xiàn)作了批判性分析。這是一個(gè)重要更新，指出了信息瓶頸理論的一些局限性。

在這篇論文中，作者首先從再現(xiàn) Schwartz-Viz 和 Tishby 論文中的「信息平面動(dòng)態(tài)」（information plane dynamics）開(kāi)始，接著展開(kāi)進(jìn)一步實(shí)驗(yàn)：使用 ReLU 替代激活函數(shù) tanh，觀察有何影響；探索泛化與壓縮之間的聯(lián)系；研究訓(xùn)練期間隨機(jī)性對(duì)壓縮是否重要；以及研究在何種程度上與任務(wù)不相關(guān)的信息也被壓縮。

簡(jiǎn)單來(lái)說(shuō)，該論文發(fā)現(xiàn) Schwartz-Viz 和 Tishby 論文中的結(jié)果無(wú)法很好地泛化到其他網(wǎng)絡(luò)架構(gòu)：訓(xùn)練期間的兩個(gè)階段依賴于激活函數(shù)的選擇；無(wú)法證明壓縮與泛化之間存在因果關(guān)系；當(dāng)壓縮確實(shí)發(fā)生時(shí)，它不一定依賴于來(lái)自隨機(jī)梯度下降（SGD）的隨機(jī)性。

我們的結(jié)果強(qiáng)調(diào)在應(yīng)用信息理論分析深度學(xué)習(xí)系統(tǒng)時(shí)噪聲假設(shè)的重要性，并且通過(guò)展示表征壓縮與泛化性能存在分歧的實(shí)例來(lái)復(fù)雜化深度學(xué)習(xí)的信息瓶頸理論。

下面我們來(lái)更深入地理解

激活函數(shù)選擇的影響

我們的分析起點(diǎn)是發(fā)現(xiàn)改變激活函數(shù)能顯著地改變信息平面中的網(wǎng)絡(luò)軌跡。

作者借助 Schwartz-Vis 和 Tishby 提供的代碼首次再現(xiàn)了我們上周看到的結(jié)果（見(jiàn)下圖 1A），接著改變網(wǎng)絡(luò)以使用 ReLU——修正線性激活函數(shù)，最終獲得的信息平面動(dòng)態(tài)請(qǐng)見(jiàn)圖 1B。

我們看到 tanh 激活函數(shù)的相移消失了！

輸入的互信息在所有的 ReLu 層中單調(diào)遞增，沒(méi)有明顯的壓縮階段。因此，非線性函數(shù)的選擇實(shí)質(zhì)上影響了信息平面的動(dòng)態(tài)。

作者使用一個(gè)非常簡(jiǎn)單的三神經(jīng)元網(wǎng)絡(luò)進(jìn)一步探討了這一現(xiàn)象。標(biāo)量高斯輸入分布通過(guò)標(biāo)量第一層權(quán)重 w1 饋送，并通過(guò)神經(jīng)非線性函數(shù) f(·) 傳輸以獲取隱藏單元活動(dòng)。

為了計(jì)算互信息，隱藏單元活動(dòng)被離散化至 30 個(gè)統(tǒng)一的分箱（bin）中，以獲得離散變量。

使用 tanh 非線性函數(shù)，互信息先增后降。使用 ReLU 非線性函數(shù)，互信息一直呈上升趨勢(shì)。

tanh 函數(shù)權(quán)重較大，飽和時(shí)會(huì)下降，以接近 1 比特的輸入（即分散變量集中于 1 和 -1 周圍的 bin）提供互信息。而使用 ReLU 函數(shù)，一半輸入是負(fù)的，聚集在 0 周圍的 bin，而另一半呈高斯分布，熵隨權(quán)重的變化而單調(diào)遞增。因此，tanh 的雙面飽和特性是原始結(jié)果的關(guān)鍵。

……隨著隱藏單元進(jìn)入飽和態(tài)，由于用于計(jì)算互信息的分箱（binning）步驟，雙飽和非線性（double-saturating nonlinearities）導(dǎo)致輸入信息的壓縮。我們注意到分箱可以看作是暗中向隱藏層活動(dòng)中添加噪聲：多個(gè) X 映射至一個(gè) bin，這樣 X 和 T 之間的映射不再是完美可逆的。

分箱對(duì)信息理論分析非常關(guān)鍵，「但是，實(shí)踐中噪聲沒(méi)有添加至這些神經(jīng)網(wǎng)絡(luò)的訓(xùn)練或測(cè)試過(guò)程中?！?/p>

tanh 的飽和說(shuō)明互信息下降時(shí)出現(xiàn)了壓縮階段，以及 tanh 網(wǎng)絡(luò)進(jìn)入壓縮階段后訓(xùn)練過(guò)程變慢的原因：部分輸入使非線性函數(shù)出現(xiàn)飽和，減少了反向傳播的誤差梯度。

獨(dú)立于壓縮的泛化

隨后，作者使用信息平面鏡頭進(jìn)一步研究了壓縮和泛化之間的關(guān)系。

……我們利用 student-teacher 設(shè)置（Seung et al.,1992；Advani & Saxe, 2017）下訓(xùn)練的簡(jiǎn)單線性網(wǎng)絡(luò)探索泛化動(dòng)態(tài)的最近結(jié)果。該設(shè)置可以讓我們較精確地計(jì)算網(wǎng)絡(luò)泛化性能和表征的互信息（未經(jīng)分箱），以及直接對(duì)比線性高斯問(wèn)題已知的信息瓶頸邊界。

在信息平面中（上圖 D）我們沒(méi)有觀察到壓縮，盡管網(wǎng)絡(luò)確實(shí)學(xué)習(xí)了一個(gè)可以很好地泛化至任務(wù)的路線圖，并顯示了最小的過(guò)度訓(xùn)練。在實(shí)驗(yàn)中執(zhí)行不同程度的過(guò)擬合表明，信息平面中具有相似行為的網(wǎng)絡(luò)可能具有不同的泛化性能。

這就建立了信息平面中行為與泛化動(dòng)態(tài)之間的分離：壓縮的網(wǎng)絡(luò)可能會(huì)也可能不會(huì)很好地泛化，未壓縮的網(wǎng)絡(luò)也是如此。

隨機(jī)有助于壓縮嗎？

接下來(lái)，作者首先研究了導(dǎo)致壓縮的因素，分析了隨機(jī)梯度下降（SGD）和批量梯度下降（BGD）的區(qū)別。SGD 從數(shù)據(jù)集中拿出一個(gè)樣本，并計(jì)算相關(guān)的誤差梯度，而批量梯度下降使用所有樣本的整體誤差：「關(guān)鍵是，在更新中沒(méi)有隨機(jī)或擴(kuò)散性的行為?！?/p>

使用 SGD 和 BGD 對(duì) tanh 和線性網(wǎng)絡(luò)分別進(jìn)行訓(xùn)練，信息平面動(dòng)態(tài)如下：

我們發(fā)現(xiàn)二者的信息動(dòng)態(tài)大體一致，tanh 網(wǎng)絡(luò)對(duì)于兩種方法都有較魯棒的壓縮。因此訓(xùn)練過(guò)程中的隨機(jī)性似乎對(duì)輸入信息的壓縮貢獻(xiàn)不大。該發(fā)現(xiàn)與「壓縮主要原因是雙飽和非線性」的觀點(diǎn)一致。

對(duì)任務(wù)不相關(guān)信息進(jìn)行壓縮

最后的實(shí)驗(yàn)將輸入 X 分割成任務(wù)相關(guān)的輸入和任務(wù)不相關(guān)的輸入。前者貢獻(xiàn)信號(hào)，后者貢獻(xiàn)噪聲。因此好的泛化似乎需要忽略噪聲。論文作者發(fā)現(xiàn)當(dāng)任務(wù)相關(guān)的信息發(fā)生擬合時(shí)，任務(wù)不相關(guān)的信息發(fā)生壓縮，盡管整體看來(lái)沒(méi)有觀察到輸入出現(xiàn)壓縮階段。

結(jié)果

我們的結(jié)果表明信息平臺(tái)中的壓縮動(dòng)態(tài)不是深層網(wǎng)絡(luò)的普遍特征，但是網(wǎng)絡(luò)使用的非線性函數(shù)對(duì)此有很大影響……信息壓縮可以與尖銳最小值（sharp minima）同時(shí)出現(xiàn)；盡管實(shí)驗(yàn)證明在特定設(shè)置中泛化誤差和架構(gòu)有關(guān)系，進(jìn)一步的理論分析證明尖銳最小值也可以實(shí)現(xiàn)很好的泛化效果。

論文：On the Information Bottleneck Theory of Deep Learning

論文鏈接：https://openreview.net/forum?id=ry_WPG-A-

摘要：深度神經(jīng)網(wǎng)絡(luò)的理論與實(shí)踐成果并不匹配，理論無(wú)法解釋深度神經(jīng)網(wǎng)絡(luò)的行為。本論文研究了深度學(xué)習(xí)的信息瓶頸理論（IB），該理論有三個(gè)主要觀點(diǎn)：（1）深度網(wǎng)絡(luò)需要兩個(gè)階段：初始擬合階段和后續(xù)壓縮階段；（2）壓縮階段和深度網(wǎng)絡(luò)卓越的泛化性能之間存在因果關(guān)系；（3）壓縮階段由于隨機(jī)梯度下降的擴(kuò)散行為才會(huì)出現(xiàn)。本文中，我們證明了這些觀點(diǎn)通常情況下是錯(cuò)誤的。通過(guò)分析結(jié)果和模擬，我們展示了信息平面軌跡主要使用了一種神經(jīng)非線性函數(shù)：雙飽和非線性（double-sided saturating nonlinearities）函數(shù)，如 tanh 函數(shù)，當(dāng)神經(jīng)激活函數(shù)進(jìn)入飽和態(tài)時(shí)，深度網(wǎng)絡(luò)進(jìn)入壓縮階段；而線性激活函數(shù)和單飽和非線性函數(shù)，如廣泛使用的 ReLU 就不是這樣。線性神經(jīng)網(wǎng)絡(luò)的泛化誤差動(dòng)態(tài)的近期結(jié)果表明壓縮和泛化之間不存在因果關(guān)系：沒(méi)有壓縮的網(wǎng)絡(luò)也能夠泛化，反之亦然。通過(guò)使用全批量梯度下降代替隨機(jī)梯度下降來(lái)復(fù)現(xiàn)瓶頸理論，我們還證明了壓縮階段不需要訓(xùn)練過(guò)程中的隨機(jī)性。最后，我們證明當(dāng)輸入域包含任務(wù)相關(guān)或不相關(guān)信息的子集時(shí)，隱藏的表征（hidden representation）對(duì)任務(wù)不相關(guān)的信息進(jìn)行壓縮，盡管輸入的整體信息隨著訓(xùn)練時(shí)間而單調(diào)遞增，壓縮與擬合過(guò)程并行發(fā)生，而不是在后續(xù)的壓縮階段中出現(xiàn)。

一言以蔽之，我們驗(yàn)證了深度學(xué)習(xí)信息瓶頸理論中的多個(gè)觀點(diǎn)在一般情況下并不正確。

爭(zhēng)議

值得一提的是，在 Open Review 論文平臺(tái)上，「信息瓶頸」理論的提出者 Naftali Tishby 等人也與論文作者展開(kāi)了交鋒。Tishby 表示，這篇新論文重復(fù)和驗(yàn)證了「信息瓶頸」理論先前研究的實(shí)驗(yàn)，證實(shí)并強(qiáng)化了這一理論，但同時(shí)又忽略了許多理論和實(shí)驗(yàn)結(jié)果，在許多方面都是有缺陷和誤導(dǎo)性的。?

相關(guān)鏈接

Ravid Shwartz-Ziv 與 Naftali Tishby 2017 年提交的論文《Opening the Black Box of Deep Neural Networks via Information》：https://arxiv.org/abs/1703.00810

原文鏈接：https://blog.acolyer.org/2017/11/24/on-the-information-bottleneck-theory-of-deep-learning/

歡迎加入本站公開(kāi)興趣群

商業(yè)智能與數(shù)據(jù)分析群

興趣范圍包括各種讓數(shù)據(jù)產(chǎn)生價(jià)值的辦法，實(shí)際應(yīng)用案例分享與討論，分析工具，ETL工具，數(shù)據(jù)倉(cāng)庫(kù)，數(shù)據(jù)挖掘工具，報(bào)表系統(tǒng)等全方位知識(shí)

QQ群：81035754

云服務(wù)器 GPU云服務(wù)器對(duì)以往的數(shù)據(jù)分析空間信息理論數(shù)據(jù)分析對(duì)數(shù)據(jù)的要求 linux瓶頸分析

文章版權(quán)歸作者所有，未經(jīng)允許請(qǐng)勿轉(zhuǎn)載,若此文章存在違規(guī)行為，您可以聯(lián)系管理員刪除。

轉(zhuǎn)載請(qǐng)注明本文地址：http://systransis.cn/yun/4692.html

發(fā)表評(píng)論

登陸后可評(píng)論

0條評(píng)論

xiaodao

男|高級(jí)講師

我要關(guān)注我要私信

TA的文章

Pacificrack：2021年中國(guó)七夕節(jié)促銷VPS/2核/2G內(nèi)存/60G SSD/1T流量/支

閱讀 3105·2021-08-03 14:05
面試小結(jié)（一）

閱讀 2152·2019-08-29 15:35
css偽元素

閱讀 688·2019-08-29 13:30
CSS揭秘之《制作半透明邊框》

閱讀 3176·2019-08-29 13:20
理解JavaScript變量和類型

閱讀 2541·2019-08-23 18:15
Js處理頁(yè)面響應(yīng)式

閱讀 1807·2019-08-23 14:57
JS設(shè)計(jì)模式之Facade（外觀）模式

閱讀 2224·2019-08-23 13:57
Tasks(任務(wù)), microtasks(微任務(wù)), queues（隊(duì)列） and schedul

閱讀 1320·2019-08-23 12:10

成人国产在线小视频_日韩寡妇人妻调教在线播放_色成人www永久在线观看_2018国产精品久久_亚洲欧美高清在线30p_亚洲少妇综合一区_黄色在线播放国产_亚洲另类技巧小说校园_国产主播xx日韩_a级毛片在线免费

資訊專欄INFORMATION COLUMN

上云采購(gòu)季！| 2核2G4M爆款云服務(wù)器低至59元/年，更有多臺(tái)、長(zhǎng)期優(yōu)惠，快來(lái)選購(gòu)！

戳穿泡沫：對(duì)「信息瓶頸」理論的批判性分析

相關(guān)文章

漫談 | 是什么讓牛頓變得如此瘋狂？——說(shuō)說(shuō)歷史上的“泡沫”事件

“信息瓶頸”理論揭示深度學(xué)習(xí)本質(zhì)，Hinton說(shuō)他要看1萬(wàn)遍

揭開(kāi)深度學(xué)習(xí)黑箱：希伯來(lái)大學(xué)計(jì)算機(jī)科學(xué)教授提出「信息瓶頸」

Coursera數(shù)據(jù)工程師董飛：硅谷大數(shù)據(jù)的過(guò)去與未來(lái)

發(fā)表評(píng)論

0條評(píng)論

xiaodao

男|高級(jí)講師

TA的文章

Pacificrack：2021年中國(guó)七夕節(jié)促銷VPS/2核/2G內(nèi)存/60G SSD/1T流量/支

面試小結(jié)（一）

css偽元素

CSS揭秘之《制作半透明邊框》

理解JavaScript變量和類型

Js處理頁(yè)面響應(yīng)式

JS設(shè)計(jì)模式之Facade（外觀）模式

Tasks(任務(wù)), microtasks(微任務(wù)), queues（隊(duì)列） and schedul

最新活動(dòng)

資訊專欄INFORMATION COLUMN

上云采購(gòu)季！| 2核2G4M爆款云服務(wù)器低至59元/年，更有多臺(tái)、長(zhǎng)期優(yōu)惠，快來(lái)選購(gòu)！

戳穿泡沫：對(duì)「信息瓶頸」理論的批判性分析

相關(guān)文章

發(fā)表評(píng)論

0條評(píng)論

男|高級(jí)講師

TA的文章

最新活動(dòng)

上云采購(gòu)季！| 2核2G4M爆款云服務(wù)器低至59元/年，更有多臺(tái)、長(zhǎng)期優(yōu)惠，快來(lái)選購(gòu)！