摘要:因?yàn)樯疃葘W(xué)習(xí)的正統(tǒng)觀念在該領(lǐng)域已經(jīng)很流行了。在機(jī)器和深度學(xué)習(xí)空間中進(jìn)行的大多數(shù)數(shù)學(xué)分析傾向于使用貝葉斯思想作為參數(shù)。如果我們接受了目前深度學(xué)習(xí)的主流觀點(diǎn)任何一層的微分都是公平的,那么或許我們應(yīng)該使用存儲(chǔ)多種變體的復(fù)分析。
深度學(xué)習(xí)只能使用實(shí)數(shù)嗎?本文簡(jiǎn)要介紹了近期一些將復(fù)數(shù)應(yīng)用于深度學(xué)習(xí)的若干研究,并指出使用復(fù)數(shù)可以實(shí)現(xiàn)更魯棒的層間梯度信息傳播、更高的記憶容量、更準(zhǔn)確的遺忘行為、大幅降低的網(wǎng)絡(luò)規(guī)模,以及 GAN 訓(xùn)練中更好的穩(wěn)定性。
曼德布洛特復(fù)數(shù)集合:https://en.wikipedia.org/wiki/Mandelbrot_set
深度學(xué)習(xí)只能使用實(shí)數(shù),大家不覺得奇怪嗎?或許,深度學(xué)習(xí)使用復(fù)數(shù)才是更加奇怪的事情吧(注意:復(fù)數(shù)是有虛部的)。一個(gè)有價(jià)值的論點(diǎn)是:大腦在計(jì)算的時(shí)候不太可能使用復(fù)數(shù)。當(dāng)然你也可以提出這樣的論點(diǎn):大腦也不用矩陣運(yùn)算或者鏈?zhǔn)椒▌t微分啊。此外,人工神經(jīng)網(wǎng)絡(luò)(ANN)具有實(shí)際神經(jīng)元的模型。長(zhǎng)期以來(lái),我們用實(shí)分析代替了生物合理性(biological plausibility)。
然而,為什么我們要止步于實(shí)分析呢?我們已經(jīng)用了這么久線性代數(shù)和微分方程,那我們也可以將這一切都推倒,用復(fù)分析建立新的一套。或許更加奇妙的復(fù)分析會(huì)賦予我們更強(qiáng)大的方法。畢竟它對(duì)量子力學(xué)奏效,那么它也有可能在深度學(xué)習(xí)領(lǐng)域發(fā)揮作用。此外,深度學(xué)習(xí)和量子力學(xué)都與信息處理有關(guān),二者可能是同一件事情。
由于論據(jù)的原因,我們暫且不考慮生物合理性。這是一個(gè)很古老的觀點(diǎn),可以追溯到 1957 年 Frank Rosenblatt 第一次提出人工神經(jīng)網(wǎng)絡(luò)的時(shí)候。那么問題來(lái)了,復(fù)數(shù)可以提供哪些實(shí)數(shù)不能提供的東西呢?
在過去幾年里,曾經(jīng)出現(xiàn)過一些探索在深度學(xué)習(xí)中使用復(fù)數(shù)的文章。奇怪的是,它們中的大部分都沒有被同行評(píng)議的期刊接受。因?yàn)樯疃葘W(xué)習(xí)的正統(tǒng)觀念在該領(lǐng)域已經(jīng)很流行了。但是,我們還是要評(píng)述一些有趣的論文。
DeepMind 的論文《Associative Long Short-Term Memory》(Ivo Danihelka, Greg Wayne, Benigno Uria, Nal Kalchbrenner, Alex Graves)探討了使用復(fù)數(shù)值形成聯(lián)想記憶神經(jīng)網(wǎng)絡(luò)。該系統(tǒng)被用來(lái)增強(qiáng) LSTM 的記憶。論文的結(jié)論是使用復(fù)數(shù)的網(wǎng)絡(luò)可獲取更大的記憶容量。根據(jù)數(shù)學(xué)原理,與僅僅使用實(shí)數(shù)的情況相比,使用復(fù)數(shù)需要的矩陣更小。如下圖所示,使用復(fù)數(shù)的神經(jīng)網(wǎng)絡(luò)在內(nèi)存開銷上與傳統(tǒng) LSTM 有顯著區(qū)別。
Yoshua Bengio 及其在蒙特利爾的團(tuán)隊(duì)探索了另一種使用復(fù)數(shù)的方式。研究者在《Unitary Evolution Recurrent Neural Networks》(Martin Arjovsky, Amar Shah, Yoshua Bengio)一文中探討了酉矩陣。他們認(rèn)為,如果矩陣的特征值接近 1 的話,消失的梯度或許會(huì)帶來(lái)實(shí)際的好處。該研究使用復(fù)數(shù)作為 RNN 網(wǎng)絡(luò)的權(quán)重。結(jié)論如下:
實(shí)證表明我們的 uRNN 能夠更好地通過長(zhǎng)序列傳遞梯度信息,并且不會(huì)遇到像 LSTM 一樣多的飽和隱藏狀態(tài)(saturating hidden states)。
他們做了多次實(shí)驗(yàn)對(duì)使用復(fù)數(shù)的網(wǎng)絡(luò)與傳統(tǒng) RNN 的性能進(jìn)行了量化比較:
使用復(fù)數(shù)的系統(tǒng)明顯擁有更魯棒、更穩(wěn)定的性能。
Bengio 團(tuán)隊(duì)和 MIT 合作的一篇論文《Gated Orthogonal Recurrent Units: On Learning to Forget》(Li Jing, Caglar Gulcehre, John Peurifoy, Yichen Shen, Max Tegmark, Marin Solja?i?, Yoshua Bengio)提出了使用門控機(jī)制的方法。這篇論文探討了長(zhǎng)期依賴能夠更好地被捕獲以及形成一個(gè)更加魯棒的遺忘機(jī)制的可能性。下圖展示了其他基于 RNN 的系統(tǒng)在復(fù)制任務(wù)中的失??;
FAIR 和 EPFL 的一個(gè)團(tuán)隊(duì)出了一篇類似的論文《Kronecker Recurrent Units》(Cijo Jose, Moustpaha Cisse, Francois Fleuret),他們?cè)谡撐睦镆舱宫F(xiàn)了在復(fù)制任務(wù)中使用酉矩陣的可行性。他們展示了一種能夠大幅減少所需參數(shù)的矩陣分解方法。文中描述了他們使用復(fù)數(shù)的動(dòng)機(jī)。
由于實(shí)空間的行列式是連續(xù)函數(shù),所以實(shí)空間的酉集是不連貫的。因而,使用標(biāo)準(zhǔn)的連續(xù)優(yōu)化程序不能在實(shí)值網(wǎng)絡(luò)上跨越全酉集。相反,酉集在復(fù)空間中是連接在一起的,因?yàn)樗男辛惺绞菑?fù)空間中單位圓上的點(diǎn),所以使用復(fù)數(shù)就不會(huì)出現(xiàn)這個(gè)問題。
這篇論文的精華之一就是下面這則富有建設(shè)性的思想:
狀態(tài)應(yīng)當(dāng)保持高維度,以使用高容量的網(wǎng)絡(luò)將輸入編碼成內(nèi)部狀態(tài)、提取預(yù)測(cè)值。但 recurrent dynamic 可使用低容量模型實(shí)現(xiàn)。
目前,這些方法已經(jīng)探索了在 RNN 上對(duì)復(fù)數(shù)值的使用。MILA(蒙特利爾學(xué)習(xí)算法研究所)最近的一篇論文《Deep Complex Networks》(Chiheb Trabelsi 等人)進(jìn)一步探索了這些方法在卷積神經(jīng)網(wǎng)絡(luò)上的使用。論文作者在計(jì)算機(jī)視覺任務(wù)上測(cè)試了他們的網(wǎng)絡(luò),結(jié)果很有競(jìng)爭(zhēng)力。
最后,我們必須說一下復(fù)數(shù)在 GAN 中的使用。畢竟 GAN 可以說是最熱的話題了。論文《Numerics of GANs》(Lars Mescheder, Sebastian Nowozin, Andreas Geiger)探討了 GAN 中棘手的收斂性能。他們研究了帶有復(fù)數(shù)值的雅克比矩陣的特點(diǎn),并使用它創(chuàng)建解決 GAN 均衡問題的較先進(jìn)方法。
在去年的一篇博文中,我介紹了全息原理和深度學(xué)習(xí)的關(guān)系。博文中的方法探索了張量網(wǎng)絡(luò)和深度學(xué)習(xí)架構(gòu)網(wǎng)絡(luò)之間的相似性。量子力學(xué)可以被認(rèn)為是使用了一種更加通用的概率形式。對(duì)復(fù)數(shù)的使用則提供了常規(guī)概率無(wú)法提供的額外能力。具體來(lái)說就是疊加和干擾的能力。為了實(shí)現(xiàn)全息術(shù),在處理過程中使用復(fù)數(shù)會(huì)比較好。
在機(jī)器和深度學(xué)習(xí)空間中進(jìn)行的大多數(shù)數(shù)學(xué)分析傾向于使用貝葉斯思想作為參數(shù)。事實(shí)上,大多數(shù)從業(yè)者都認(rèn)為它是貝葉斯的,但實(shí)際上來(lái)自與統(tǒng)計(jì)學(xué)機(jī)制(除去名字,這里沒有統(tǒng)計(jì)學(xué)的那些繁文縟節(jié))。
但如果量子力學(xué)是廣義的概率,那如果我們使用 QM 啟發(fā)的方法作為替代會(huì)如何呢?一些論文試圖研究這一方向,結(jié)果值得一看。在去年的一篇論文《Quantum Clustering and Gaussian Mixtures》中,作者探索了無(wú)監(jiān)督均值聚類的使用情況。報(bào)告是這樣說的:
因此,我們觀察到了量子類干擾現(xiàn)象并不在高斯混合模型中出現(xiàn)。我們展示了量子方法在所有方面上都優(yōu)于高斯混合方法。
兩者的對(duì)比如圖:
噪聲發(fā)生了什么?
為什么在有了 20 世紀(jì)的量子概率理論后還要拘泥于 18 世紀(jì)的貝葉斯理論呢?
本文提及的研究論文證明了:在深度學(xué)習(xí)架構(gòu)中使用復(fù)數(shù)確實(shí)會(huì)帶來(lái)「實(shí)實(shí)在在」的優(yōu)勢(shì)。研究表明:使用復(fù)數(shù)能夠帶來(lái)更魯棒的層間梯度信息傳播、更高的記憶容量、更準(zhǔn)確的遺忘行為、大幅降低的網(wǎng)絡(luò)規(guī)模,以及訓(xùn)練 GAN 時(shí)更好的穩(wěn)定性。這些優(yōu)點(diǎn)可不能被簡(jiǎn)單地忽略。如果我們接受了目前深度學(xué)習(xí)的主流觀點(diǎn)--任何一層的微分都是公平的,那么或許我們應(yīng)該使用存儲(chǔ)多種變體的復(fù)分析。
或許復(fù)數(shù)沒有被經(jīng)常使用的原因是研究者對(duì)它不夠熟悉。在優(yōu)化研究社區(qū)中,數(shù)學(xué)傳統(tǒng)并沒有涉及到復(fù)數(shù)。然而物理學(xué)家卻一直在使用復(fù)數(shù)。那些虛部在量子力學(xué)中始終是存在的。這并不奇怪,這就是現(xiàn)實(shí)。我們?nèi)匀徊惶斫鉃楹芜@些深度學(xué)習(xí)系統(tǒng)會(huì)如此有用。所以探索其他的表示可能會(huì)帶來(lái)出乎意料的突破。
在不久的將來(lái),這個(gè)局面可能會(huì)變化。較先進(jìn)的結(jié)構(gòu)可能會(huì)普遍使用復(fù)數(shù),那時(shí)候不使用復(fù)數(shù)反倒變得奇怪了。
原文鏈接:https://medium.com/intuitionmachine/should-deep-learning-use-complex-numbers-edbd3aac3fb8
商業(yè)智能與數(shù)據(jù)分析群
興趣范圍包括各種讓數(shù)據(jù)產(chǎn)生價(jià)值的辦法,實(shí)際應(yīng)用案例分享與討論,分析工具,ETL工具,數(shù)據(jù)倉(cāng)庫(kù),數(shù)據(jù)挖掘工具,報(bào)表系統(tǒng)等全方位知識(shí)
QQ群:81035754
文章版權(quán)歸作者所有,未經(jīng)允許請(qǐng)勿轉(zhuǎn)載,若此文章存在違規(guī)行為,您可以聯(lián)系管理員刪除。
轉(zhuǎn)載請(qǐng)注明本文地址:http://systransis.cn/yun/4638.html
摘要:第二部分高級(jí)概念我們現(xiàn)在對(duì)卷積有了一個(gè)良好的初步認(rèn)識(shí),也知道了卷積神經(jīng)網(wǎng)絡(luò)在干什么為什么它如此強(qiáng)大。 譯自Tim Dettmers的Understanding Convolution in Deep Learning。有太多的公開課、教程在反復(fù)傳頌卷積神經(jīng)網(wǎng)絡(luò)的好,卻都沒有講什么是卷積,似乎默認(rèn)所有讀者都有相關(guān)基礎(chǔ)。這篇外文既友好又深入,所以翻譯了過來(lái)。文章高級(jí)部分通過流體力學(xué)量子力學(xué)等解釋...
摘要:文章第一部分旨在幫助讀者理解卷積的概念和深度學(xué)習(xí)中的卷積網(wǎng)絡(luò)。卷積定理要理解卷積,不得不提,它將時(shí)域和空域上的復(fù)雜卷積對(duì)應(yīng)到了頻域中的元素間簡(jiǎn)單的乘積。 譯者按:本文譯自 Tim Dettmers 的 Understanding Convolution in Deep Learning。有太多的公開課、教程在反復(fù)傳頌卷積神經(jīng)網(wǎng)絡(luò)的好,卻都沒有講什么是「卷積」,似乎默認(rèn)所有讀者都有相關(guān)基礎(chǔ)。這...
閱讀 4186·2021-11-22 13:52
閱讀 2094·2021-09-22 15:12
閱讀 1132·2019-08-30 15:53
閱讀 3467·2019-08-29 17:12
閱讀 2198·2019-08-29 16:23
閱讀 1662·2019-08-26 13:56
閱讀 1778·2019-08-26 13:44
閱讀 1897·2019-08-26 11:56