摘要:老顧受邀在一些大學(xué)和科研機(jī)構(gòu)做了題為深度學(xué)習(xí)的幾何觀點的報告,匯報了這方面的進(jìn)展情況。深度學(xué)習(xí)的主要目的和功能之一就是從數(shù)據(jù)中學(xué)習(xí)隱藏的流形結(jié)構(gòu)和流形上的概率分布。
(最近,哈佛大學(xué)丘成桐先生領(lǐng)導(dǎo)的團(tuán)隊,大連理工大學(xué)羅鐘鉉教授、雷娜教授領(lǐng)導(dǎo)的團(tuán)隊?wèi)?yīng)用幾何方法研究深度學(xué)習(xí)。老顧受邀在一些大學(xué)和科研機(jī)構(gòu)做了題為“深度學(xué)習(xí)的幾何觀點”的報告,匯報了這方面的進(jìn)展情況。這里是報告的簡要記錄,具體內(nèi)容見【1】。)
深度學(xué)習(xí)技術(shù)正在深刻地改變著人類的歷史進(jìn)程,它在圖像識別、語音識別、自然語言處理、文本翻譯等幾乎所有信息科學(xué)領(lǐng)域,都帶來了翻天覆地的革命。我們這個時代所面臨的更為根本的問題之一就是為深度學(xué)習(xí)的有效性給出一個合理的答案。
縱觀人類歷史的歷次技術(shù)革命,火的使用,青銅器的制作工藝,農(nóng)業(yè)的大規(guī)模普及,機(jī)械的應(yīng)用,內(nèi)燃機(jī)的發(fā)明,電力電氣工業(yè)的成熟,電子計算機(jī)技術(shù)的推廣,信息工業(yè)的蓬勃發(fā)展等等,無一不是建筑在深刻的自然科學(xué)原理之上的。雖然當(dāng)時人類可能主觀上并沒有真正意識到,但是在客觀上都是順應(yīng)了自然,可能是物理、化學(xué)、或者生物方面的基本定律。那么深度學(xué)習(xí)的巨大成功究竟歸功于哪一條自然定律?
我們認(rèn)為,和歷史上的歷次技術(shù)革命不同,深度學(xué)習(xí)的成功是基于兩條:數(shù)據(jù)本身的內(nèi)在規(guī)律,深度學(xué)習(xí)技術(shù)能夠揭示并利用這些規(guī)律。數(shù)據(jù)科學(xué)(或者信息科學(xué))中的基本定律(或者更為保守的,基本假設(shè))可以歸結(jié)為:
1. 流形分布定律:自然界中同一類別的高維數(shù)據(jù),往往集中在某個低維流形附近。
2. 聚類分布定律:這一類別中不同的子類對應(yīng)著流形上的不同概率分布,這些分布之間的距離大到足夠?qū)⑦@些子類區(qū)分。
圖1. 流形的定義。
深度學(xué)習(xí)的主要目的和功能之一就是從數(shù)據(jù)中學(xué)習(xí)隱藏的流形結(jié)構(gòu)和流形上的概率分布。
關(guān)于聚類分布定律,目前有相對完善的理論基礎(chǔ)-最優(yōu)傳輸理論,和較為實用的算法,例如基于凸幾何的蒙日-安培方程解法【2】,這些方法可以測量概率分布之間的距離,實現(xiàn)概率分布之間的變換【3】。關(guān)于流形分布定律,目前理論發(fā)展不太完備,很多時候?qū)W習(xí)效果嚴(yán)重依賴于調(diào)參。但是很多實際應(yīng)用問題,都可以用流形的框架來建模,從而用幾何的語言來描述、梳理,用幾何理論工具來加以解決,進(jìn)而有望從含混模糊的經(jīng)驗性試錯,進(jìn)化到思路清晰的定量研究。
流形結(jié)構(gòu)
圖2. 流形和參數(shù)化映射。
例二:如圖2所示,米勒佛曲面是三維空間中的二維流形,參數(shù)化映射將曲面映射到平面圓盤。這一映射的逆映射給出了曲面的參數(shù)化表示。這里,所有的映射都是用分片線性映射來逼近的。注意,這里參數(shù)化映射并不,這會帶來隱空間概率密度的變化,后面我們會對此進(jìn)行詳細(xì)討論。
圖3. 所有人臉圖像符合流形分布定律。
那么在現(xiàn)實中,我們?nèi)绾螌W(xué)習(xí)人臉圖像構(gòu)成的流形呢?這里所謂的“學(xué)習(xí)”意味著什么?答案是用人臉圖片的樣本集來訓(xùn)練深度神經(jīng)網(wǎng)絡(luò),我們可以得到人臉圖像流形的參數(shù)化映射(編碼)和局部參數(shù)表示(解碼)。
編碼、解碼器
圖4. 自動編碼解碼器。
一旦我們掌握了流形在手,我們可以完成很多傳統(tǒng)方法無法想象的應(yīng)用,也可以革新很多傳統(tǒng)方法所涉獵的經(jīng)典應(yīng)用。下面我們通過幾個實例來彰顯流形思維框架的威力。
生成模型(Generative Model)
圖5. 生成模型。
生成模型是深度學(xué)習(xí)的一個典型應(yīng)用,如圖5所示,輸入一張低維的白噪音,輸出一張逼真的人臉圖像。這在傳統(tǒng)框架下是匪夷所思的:我們妙手空空,平白無故地變出一張人臉!但在流形框架下非常簡單。
圖像去噪(denoising)
圖像去噪是圖像處理的經(jīng)典問題?;谛畔⒄?,我們將帶有噪音的圖像進(jìn)行傅里葉變換,在頻域濾波,去除高頻分量,然后再進(jìn)行傅里葉逆變換,得到去噪圖像。因為噪聲往往分布在高頻部分,因此這一方法比較奏效。這種經(jīng)典方法比較普適,和圖像內(nèi)容無關(guān)。
圖6. 圖像去噪的流形解釋。
圖7. Autoencoder圖像去噪結(jié)果。
圖8. 左幀,輸入流形和噪聲點;右?guī)肼朁c被投影到重建的流形上。投影由Autoencoder實現(xiàn)。
這種方法不問噪聲的形成機(jī)制,適用于各種噪聲。但是這種方法嚴(yán)重依賴于圖片內(nèi)容。這里我們進(jìn)行人臉圖像去噪,因此需要清晰人臉圖像流形。如果,我們將帶噪聲的人臉圖像向清晰貓臉圖像流形投影,所得結(jié)果不再具有任何實際意義。
這顯示了用深度學(xué)習(xí)方法去噪的某種局限性,首先我們必須擁有相應(yīng)的流形,其次不同類型的圖像,需要不同的流形。貓臉流形無法應(yīng)用于人臉圖像,反之亦然。這種局限詮釋了深度學(xué)習(xí)仍屬于弱人工智能范疇。
年齡變換
圖9. 基于深度學(xué)習(xí)的年齡變換(黃迪教授)。
如圖9所示,給定一張人臉圖像,生成這張臉二十年后的圖像,或者倒推這張臉二十年前的圖像,這種變換我們稱之為人臉圖像年齡變換。對于傳統(tǒng)方法而言,人臉圖像年齡變換是難以完成的任務(wù)。用深度學(xué)習(xí)的流形框架,我們可以給出清晰的解決方案。
手寫體數(shù)字識別
圖10. 手寫體數(shù)字流形。
如圖10所示,我們考察所有手寫體數(shù)字二值圖像構(gòu)成的流形,左幀是真實數(shù)據(jù),右?guī)巧蓴?shù)據(jù)。0到9這十個數(shù)字在此流形上定義了十個不同的概率分布。我們用編碼映射將流形映射到隱空間,編碼映射將這十個分布“推前”到隱空間上。為了可視化,我們將隱空間定義為二維平面,如此得到十個概率分布。
圖11. 手寫體數(shù)字在隱空間的概率分布。
圖11顯示了不同數(shù)字在隱空間的概率分布,這種流形+概率分布可以對知識進(jìn)行更加詳盡的表述,從而用于識別分類等問題。
深度學(xué)習(xí)有效性的幾何解釋
流形結(jié)構(gòu) 根據(jù)數(shù)據(jù)科學(xué)的流形分布定律,自然數(shù)據(jù)背后隱藏著流形結(jié)構(gòu),深度學(xué)習(xí)方法可提取這些流形結(jié)構(gòu),并用神經(jīng)網(wǎng)絡(luò)來表達(dá)流形間的映射,給出流形本身的參數(shù)化和參數(shù)表示。這些流形結(jié)構(gòu)和其上的特定概率分布是整體先驗知識的有效表示,正是因為具備這些先驗知識,很多視覺和機(jī)器學(xué)習(xí)的問題能夠被有效解決。流形能夠表達(dá)一類數(shù)據(jù)的整體先驗知識,傳統(tǒng)方法只能利用局部較少的先驗知識。
方法論的靈活性 傳統(tǒng)方法依賴于嚴(yán)格的因果關(guān)系,往往用偏微分方程來表達(dá)自然規(guī)律。很多相關(guān)性可以用概率分布來表述,用深度學(xué)習(xí)可以習(xí)得。傳統(tǒng)方法需要自變量和因變量之間較精確的數(shù)學(xué)關(guān)系,流形框架下的深度學(xué)習(xí)只需要猜測流形的存在性和大致維數(shù)就可以學(xué)出流形結(jié)構(gòu)。
學(xué)習(xí)能力的觀察
那么,深度神經(jīng)網(wǎng)絡(luò)學(xué)習(xí)流形的能力究竟如何?我們考察一個低維流形的簡單例子,見微知著,從中可以觀察到一些富有啟發(fā)的現(xiàn)象。
圖 12. 彌勒佛曲面,輸入流形。
圖13. 隱空間表示和胞腔分解。
圖14. 重建流形。
我們假設(shè)背景空間是三維歐氏空間,流形是米勒佛曲面,如圖12所示。我們在彌勒佛表面上稠密采樣,然后訓(xùn)練一個自動編碼器,得到編碼映射和解碼映射。編碼映射將曲面映射到隱空間即二維歐氏空間,如圖13所示;解碼映射將隱空間表示映射回背景空間,得到重建流形,如圖14所示。我們采用ReLU作為激活函數(shù),編碼解碼映射為分片線性映射。編碼映射將背景空間分解為很多胞腔,在每個胞腔內(nèi)編碼映射為線性映射,圖13右?guī)嫵隽吮尘翱臻g的胞腔分解。我們從圖中可以看到重建流形比較較精確地逼近了原始的輸入流形,幾乎保留了所有的幾何細(xì)節(jié)。為了達(dá)到這一理想效果,艱苦的調(diào)參不可避免。而這正是深度學(xué)習(xí)的困難所在:缺乏理論指導(dǎo)的實驗性調(diào)節(jié)超參數(shù)。
仔細(xì)觀察這個編碼、解碼過程,我們看到重建曲面在很大程度上較好地逼近了輸入曲面,保持了細(xì)微的幾何特征,參數(shù)化映射建立了整體同胚。由此,引發(fā)了下面的問題:
如何從幾何上刻畫一個深度神經(jīng)網(wǎng)絡(luò)的學(xué)習(xí)能力?是否可以定義一個指標(biāo)來明確表示神經(jīng)網(wǎng)絡(luò)學(xué)習(xí)能力的上限?
如何從幾何上刻畫一個流形被學(xué)習(xí)的難度?是否可以定義一個指標(biāo)來明確表示這一難度?
對于任意一個深度神經(jīng)網(wǎng)絡(luò),如何構(gòu)造一個它無法學(xué)習(xí)的流形?
在下一講中,我們對這些問題進(jìn)行深入討論。
小結(jié)
我們認(rèn)為,深度學(xué)習(xí)的成功應(yīng)該歸功于數(shù)據(jù)自身具有內(nèi)在的規(guī)律:高維數(shù)據(jù)分布在低維流形附近,流形上具有特定概率分布,同時歸功于深度學(xué)習(xí)網(wǎng)絡(luò)強(qiáng)大的逼近非線性映射的能力。深度學(xué)習(xí)技術(shù)可以從一類數(shù)據(jù)中提取流形結(jié)構(gòu),將整體先驗知識用流形來表達(dá),具體而言就是編碼解碼映射,隱含在神經(jīng)元的權(quán)重之中。
深度學(xué)習(xí)的強(qiáng)大能力來源于某類知識的整體表達(dá),而傳統(tǒng)算法只能利用同一類別的局部有限知識。同時深度學(xué)習(xí)囿于底層流形的選擇,很多算法移植性依賴于底層流形的替換。
深度學(xué)習(xí)的流形框架有助于模塊化編程。我們可以想象,在未來深度的商品化硬件或軟件模塊將是各個類別的流形,和流形之間的映射,以及流形上概率密度之間的變換。底層的流形模塊已經(jīng)被AI公司訓(xùn)練完善,大規(guī)模產(chǎn)品化,用戶只需要搭建這些模塊就可以實現(xiàn)各種功能。
References? ? ? ? ? ? ? ? ? ? ? ??
Na Lei, Zhongxuan Luo, Shing-Tung Yau and David Xianfeng Gu. ?"Geometric Understanding of Deep Learning". arXiv:1805.10451?.?
https://arxiv.org/abs/1805.10451
Xianfeng Gu, Feng Luo, Jian Sun, and Shing-Tung Yau. "Variational principles for minkowski type problems, discrete optimal transport", and discrete monge-ampere equations. Asian Journal of Mathematics (AJM), 20(2):383-398, 2016.
Na Lei,Kehua Su,Li Cui,Shing-Tung Yau,David Xianfeng Gu, "A Geometric View of Optimal Transportation and Generative Model", arXiv:1710.05488. https://arxiv.org/abs/1710.05488
商業(yè)智能與數(shù)據(jù)分析群
興趣范圍包括各種讓數(shù)據(jù)產(chǎn)生價值的辦法,實際應(yīng)用案例分享與討論,分析工具,ETL工具,數(shù)據(jù)倉庫,數(shù)據(jù)挖掘工具,報表系統(tǒng)等全方位知識
QQ群:81035754
文章版權(quán)歸作者所有,未經(jīng)允許請勿轉(zhuǎn)載,若此文章存在違規(guī)行為,您可以聯(lián)系管理員刪除。
轉(zhuǎn)載請注明本文地址:http://systransis.cn/yun/4777.html
摘要:老顧受邀在一些大學(xué)和科研機(jī)構(gòu)做了題為深度學(xué)習(xí)的幾何觀點的報告,匯報了這方面的進(jìn)展情況。昨天年月日,嚴(yán)東輝教授邀請老顧在泛華統(tǒng)計協(xié)會舉辦的應(yīng)用統(tǒng)計會議上做了深度學(xué)習(xí)的幾何觀點的報告。小結(jié)最優(yōu)傳輸理論可以用于解釋深度學(xué)習(xí)中的概率分布變換。 (最近,哈佛大學(xué)丘成桐先生領(lǐng)導(dǎo)的團(tuán)隊,大連理工大學(xué)羅鐘鉉教授、雷娜教授領(lǐng)導(dǎo)的團(tuán)隊?wèi)?yīng)用幾何方法研究深度學(xué)習(xí)。老顧受邀在一些大學(xué)和科研機(jī)構(gòu)做了題為深度學(xué)習(xí)的幾何觀...
摘要:老顧受邀在一些大學(xué)和科研機(jī)構(gòu)做了題為深度學(xué)習(xí)的幾何觀點的報告,匯報了這方面的進(jìn)展情況。特別是深度學(xué)習(xí)網(wǎng)絡(luò)的學(xué)習(xí)能力取決于網(wǎng)絡(luò)的超參數(shù),如何設(shè)計超參數(shù),目前主要依賴于經(jīng)驗。 (最近,哈佛大學(xué)丘成桐先生領(lǐng)導(dǎo)的團(tuán)隊,大連理工大學(xué)羅鐘鉉教授、雷娜教授領(lǐng)導(dǎo)的團(tuán)隊?wèi)?yīng)用幾何方法研究深度學(xué)習(xí)。老顧受邀在一些大學(xué)和科研機(jī)構(gòu)做了題為深度學(xué)習(xí)的幾何觀點的報告,匯報了這方面的進(jìn)展情況。這里是報告的簡要記錄,具體內(nèi)容...
摘要:最近老顧收到很多讀者來信,絕大多數(shù)詢問對抗生成網(wǎng)絡(luò)的最優(yōu)傳輸解釋,以及和蒙日安培方程的關(guān)系。蒙日安培方程的幾何解法硬件友好,可以用目前的并行實現(xiàn)。蒙日安培方程的正則性理論更加復(fù)雜,但是對于模式塌縮的理解非常關(guān)鍵。 最近老顧收到很多讀者來信,絕大多數(shù)詢問對抗生成網(wǎng)絡(luò)的最優(yōu)傳輸解釋,以及和蒙日-安培方程的關(guān)系。很多問題涉及到經(jīng)典蒙日-安培方程理論,這里我們從偏微分方程和幾何角度介紹一下蒙日-安培...
摘要:我們將這些現(xiàn)象籠統(tǒng)稱為廣義的模式崩潰問題。這給出了模式崩潰的直接解釋。而傳統(tǒng)深度神經(jīng)網(wǎng)絡(luò)只能逼近連續(xù)映射,這一矛盾造成了模式崩潰。 春節(jié)前夕,北美遭遇極端天氣,在酷寒中筆者來到哈佛大學(xué)探望丘成桐先生。新春佳節(jié),本是普天同慶的日子,但對于孤懸海外的游子而言,卻是更為凄涼難耐。遠(yuǎn)離父母親朋,遠(yuǎn)離故國家園,自然環(huán)境寒風(fēng)凜冽,飛雪漫天,社會環(huán)境疏離淡漠,冷清寂寥。在波士頓見到導(dǎo)師和朋友,倍感欣慰。筆...
摘要:近幾年以卷積神經(jīng)網(wǎng)絡(luò)有什么問題為主題做了多場報道,提出了他的計劃。最初提出就成為了人工智能火熱的研究方向。展現(xiàn)了和玻爾茲曼分布間驚人的聯(lián)系其在論文中多次稱,其背后的內(nèi)涵引人遐想。 Hinton 以深度學(xué)習(xí)之父 和 神經(jīng)網(wǎng)絡(luò)先驅(qū) 聞名于世,其對深度學(xué)習(xí)及神經(jīng)網(wǎng)絡(luò)的諸多核心算法和結(jié)構(gòu)(包括深度學(xué)習(xí)這個名稱本身,反向傳播算法,受限玻爾茲曼機(jī),深度置信網(wǎng)絡(luò),對比散度算法,ReLU激活單元,Dropo...
閱讀 1131·2021-11-19 09:40
閱讀 975·2021-11-12 10:36
閱讀 1274·2021-09-22 16:04
閱讀 3118·2021-09-09 11:39
閱讀 1277·2019-08-30 10:51
閱讀 1891·2019-08-30 10:48
閱讀 1232·2019-08-29 16:30
閱讀 475·2019-08-29 12:37