摘要:老顧受邀在一些大學和科研機構做了題為深度學習的幾何觀點的報告,匯報了這方面的進展情況。昨天年月日,嚴東輝教授邀請老顧在泛華統(tǒng)計協(xié)會舉辦的應用統(tǒng)計會議上做了深度學習的幾何觀點的報告。小結最優(yōu)傳輸理論可以用于解釋深度學習中的概率分布變換。
(最近,哈佛大學丘成桐先生領導的團隊,大連理工大學羅鐘鉉教授、雷娜教授領導的團隊應用幾何方法研究深度學習。老顧受邀在一些大學和科研機構做了題為“深度學習的幾何觀點”的報告,匯報了這方面的進展情況。這里是報告的簡要記錄,具體內容見【1】。)
昨天(2018年6月15日),嚴東輝教授邀請老顧在泛華統(tǒng)計協(xié)會( International Chinese Statistical Association)舉辦的應用統(tǒng)計會議(ICSA2018 Applied Statistics Symposium)上做了“深度學習的幾何觀點”的報告。會議上Eric Xing教授給出報告,用統(tǒng)計概率的觀點統(tǒng)一了變分自動編碼器(VAE,Variational Autoencoder)和生成對抗網(wǎng)絡(GAN,Generative Aderseral Network)。老顧用幾何觀點將VAE和GAN加以分析,再度闡述GAN模型中的對抗是虛擬的,沒有必要的,生成器網(wǎng)絡和判別器網(wǎng)絡是冗余的。(以前的博文曾經(jīng)系統(tǒng)闡述過,請見 “虛構的對抗,GAN with the wind”)下面我們從幾何角度詳細解釋。
圖1. 流形結構。
我們前面闡述過深度學習成功的核心原因可以部分歸結為流形分布律和聚類分布律(深度學習的幾何觀點(1) - 流形分布定律),深度學習的基本任務就在于從數(shù)據(jù)中學習流形結構,建立流形的參數(shù)表達;和變換概率分布。
圖2. 隱空間的同胚映射,改變概率分布。
凸幾何理論
最優(yōu)傳輸?shù)睦碚撎烊坏睾屯箮缀伍h可夫斯基理論等價,因此我們可以用更為直觀的幾何觀點來分析概率變換問題,從而可以將深度學習中的黑箱部分用透明的數(shù)學模型來取代。
圖3. 閔可夫斯基定理。
如圖3所示,給定一個凸多面體,每個面的法向量已知,面積已知,所有面的面積和法向量的乘積之和等于0,閔可夫斯基(Minkowski)定理證明這樣的凸多面體存在,并且彼此相差一個平移。
圖5. 亞歷山大定理。
這一理論可以直接推廣到任意維,證明不需要改動。
Brenier理論,Alexandroff理論的等價關系
最優(yōu)傳輸?shù)腂renier理論和凸幾何的Alexandroff理論本質上是等價的。下面我們來具體分析。
圖6. 離散最優(yōu)傳輸問題。
圖7. 離散Brenier勢能函數(shù)的構造。
圖6. 最優(yōu)傳輸映射的計算實例。
圖6顯示了這種方法的一個計算實例,首先我們將滴水獸曲面用黎曼映照映射到平面單位圓盤,黎曼映射的像如下行左幀所示,那么曲面的面元誘導了平面圓盤上的一個測度。平面圓盤上的歐氏面元定義了均勻測度。我們用上面講述的變分法來構造平面圓盤到自身的最優(yōu)傳輸映射,最優(yōu)傳輸映射的像如下行右?guī)?。那么最?yōu)傳輸映射的結果給出了從曲面到平面圓盤的保面元映射。
對抗生成網(wǎng)絡(GAN)
2014年,Goodfellow 提出了GAN的概念,他的解釋如下:GAN的核心思想是構造兩個深度神經(jīng)網(wǎng)絡:判別器D和生成器G,用戶為GAN提供一些真實貨幣作為訓練樣本,生成器G生成假幣來欺騙判別器D,判別器D判斷一張貨幣是否來自真實樣本還是G生成的偽幣;判別器和生成器交替訓練,能力在博弈中同步提高,最后達到平衡點的時候判別器無法區(qū)分樣本的真?zhèn)危善鞯膫卧旃δ軤t火純青,生成的貨幣幾可亂真。這種計算機左右手互搏的對抗圖景,使得GAN成為更為吸引人的深度學習模型。
圖7. WassersteinGAN的理論框架。
這意味著:在最優(yōu)情況下,判別器D由生成器G的結果直接給出;生成器G由判別器D的結果直接給出;判別器D和生成器G之間的對抗是虛擬的;判別器網(wǎng)絡和生成器網(wǎng)絡是冗余的。這和人們對于GAN模型生成器、判別器相克相生的想象大相徑庭。
半透明深度網(wǎng)絡模型
圖8. 半透明深度網(wǎng)絡模型。
傳統(tǒng)的變分自動編碼器VAE核心想法是將隱空間的概率分布變換成高斯分布,手法相當曲折。
因為概率變換可以用最優(yōu)傳輸理論來清晰闡釋,并且用牛頓法優(yōu)化凸能量可以保證全局最優(yōu)性,和高階收斂速度,我們可以將深度學習中的概率變換部分分離出來,用透明的數(shù)學模型來取代,其他部分依然用傳統(tǒng)的黑箱來運算,如此得到了半透明的網(wǎng)絡模型【4】。
real digits and VAE results
WGAN and AE-OMT
圖9. 半透明網(wǎng)絡的計算結果和其他模型的計算結果比較。
我們將半透明網(wǎng)絡做為生成模型,在手寫體數(shù)據(jù)集合上進行測試。如圖9所示,半透明網(wǎng)絡的計算結果優(yōu)于傳統(tǒng)的VAE和WGAN結果。
圖10. VAE和半透明網(wǎng)絡比較。
我們將半透明網(wǎng)絡做為生成模型,在人臉圖片數(shù)據(jù)集合上進行測試。如圖10所示,半透明網(wǎng)絡的計算結果優(yōu)于傳統(tǒng)的VAE結果。
小結
最優(yōu)傳輸理論可以用于解釋深度學習中的概率分布變換。最優(yōu)傳輸?shù)腂renier理論和凸幾何中的Alexandroff理論等價,我們的理論結果給出了基于變分法的構造。在這種情形下,生成器和判別器彼此等價,它們之間的對抗不再需要,網(wǎng)絡體系結構可以大幅簡化。在深度學習中,我們可以將流形降維和概率變換分開,用透明的最優(yōu)傳輸模型來部分取代黑箱,得到半透明網(wǎng)絡模型。
References? ? ? ? ? ? ? ? ? ? ? ? ? ? ?
Na Lei, Zhongxuan Luo, Shing-Tung Yau and David Xianfeng Gu. ?"Geometric Understanding of Deep Learning". arXiv:1805.10451?.?
https://arxiv.org/abs/1805.10451
Xianfeng Gu, Feng Luo, Jian Sun, and Shing-Tung Yau. "Variational principles for minkowski type problems, discrete optimal transport", and discrete monge-ampere equations. Asian Journal of Mathematics (AJM), 20(2):383-398, 2016.
Na Lei,Kehua Su,Li Cui,Shing-Tung Yau,David Xianfeng Gu, "A Geometric View of Optimal Transportation and Generative Model", arXiv:1710.05488. https://arxiv.org/abs/1710.05488
Huidong L,Xianfeng Gu, Dimitris Samaras, "A Two-Step Computation of the Exact GAN Wasserstein Distance", ICML 2018.
聲明:文章收集于網(wǎng)絡,如有侵權,請聯(lián)系小編及時處理,謝謝!
商業(yè)智能與數(shù)據(jù)分析群
興趣范圍包括各種讓數(shù)據(jù)產(chǎn)生價值的辦法,實際應用案例分享與討論,分析工具,ETL工具,數(shù)據(jù)倉庫,數(shù)據(jù)挖掘工具,報表系統(tǒng)等全方位知識
QQ群:81035754
文章版權歸作者所有,未經(jīng)允許請勿轉載,若此文章存在違規(guī)行為,您可以聯(lián)系管理員刪除。
轉載請注明本文地址:http://systransis.cn/yun/4791.html
摘要:老顧受邀在一些大學和科研機構做了題為深度學習的幾何觀點的報告,匯報了這方面的進展情況。深度學習的主要目的和功能之一就是從數(shù)據(jù)中學習隱藏的流形結構和流形上的概率分布。 (最近,哈佛大學丘成桐先生領導的團隊,大連理工大學羅鐘鉉教授、雷娜教授領導的團隊應用幾何方法研究深度學習。老顧受邀在一些大學和科研機構做了題為深度學習的幾何觀點的報告,匯報了這方面的進展情況。這里是報告的簡要記錄,具體內容見【1...
摘要:最近老顧收到很多讀者來信,絕大多數(shù)詢問對抗生成網(wǎng)絡的最優(yōu)傳輸解釋,以及和蒙日安培方程的關系。蒙日安培方程的幾何解法硬件友好,可以用目前的并行實現(xiàn)。蒙日安培方程的正則性理論更加復雜,但是對于模式塌縮的理解非常關鍵。 最近老顧收到很多讀者來信,絕大多數(shù)詢問對抗生成網(wǎng)絡的最優(yōu)傳輸解釋,以及和蒙日-安培方程的關系。很多問題涉及到經(jīng)典蒙日-安培方程理論,這里我們從偏微分方程和幾何角度介紹一下蒙日-安培...
摘要:老顧受邀在一些大學和科研機構做了題為深度學習的幾何觀點的報告,匯報了這方面的進展情況。特別是深度學習網(wǎng)絡的學習能力取決于網(wǎng)絡的超參數(shù),如何設計超參數(shù),目前主要依賴于經(jīng)驗。 (最近,哈佛大學丘成桐先生領導的團隊,大連理工大學羅鐘鉉教授、雷娜教授領導的團隊應用幾何方法研究深度學習。老顧受邀在一些大學和科研機構做了題為深度學習的幾何觀點的報告,匯報了這方面的進展情況。這里是報告的簡要記錄,具體內容...
摘要:我們將這些現(xiàn)象籠統(tǒng)稱為廣義的模式崩潰問題。這給出了模式崩潰的直接解釋。而傳統(tǒng)深度神經(jīng)網(wǎng)絡只能逼近連續(xù)映射,這一矛盾造成了模式崩潰。 春節(jié)前夕,北美遭遇極端天氣,在酷寒中筆者來到哈佛大學探望丘成桐先生。新春佳節(jié),本是普天同慶的日子,但對于孤懸海外的游子而言,卻是更為凄涼難耐。遠離父母親朋,遠離故國家園,自然環(huán)境寒風凜冽,飛雪漫天,社會環(huán)境疏離淡漠,冷清寂寥。在波士頓見到導師和朋友,倍感欣慰。筆...
閱讀 4031·2021-11-22 13:53
閱讀 1732·2021-09-23 11:52
閱讀 2448·2021-09-06 15:02
閱讀 965·2019-08-30 15:54
閱讀 913·2019-08-30 14:15
閱讀 2394·2019-08-29 18:39
閱讀 666·2019-08-29 16:07
閱讀 427·2019-08-29 13:13