成人国产在线小视频_日韩寡妇人妻调教在线播放_色成人www永久在线观看_2018国产精品久久_亚洲欧美高清在线30p_亚洲少妇综合一区_黄色在线播放国产_亚洲另类技巧小说校园_国产主播xx日韩_a级毛片在线免费

資訊專欄INFORMATION COLUMN

深度學(xué)習(xí)不再是煉丹術(shù)!谷歌給出首個(gè)神經(jīng)網(wǎng)絡(luò)訓(xùn)練理論證明

zorro / 3609人閱讀

摘要:谷歌發(fā)布的一篇論文給出了較早的關(guān)于深度神經(jīng)網(wǎng)絡(luò)訓(xùn)練相關(guān)的理論證明,實(shí)驗(yàn)觀察結(jié)果也為初步解釋梯度下降強(qiáng)于貝葉斯優(yōu)化奠定了基礎(chǔ)。

谷歌 AI 發(fā)布的一篇論文給出了較早的關(guān)于深度神經(jīng)網(wǎng)絡(luò)訓(xùn)練相關(guān)的理論證明,實(shí)驗(yàn)觀察結(jié)果也為初步解釋梯度下降強(qiáng)于貝葉斯優(yōu)化奠定了基礎(chǔ)。神經(jīng)網(wǎng)絡(luò)的理論面紗,正逐步被揭開(kāi)。

原來(lái),神經(jīng)網(wǎng)絡(luò)實(shí)際上跟線性模型并沒(méi)那么大不同!

谷歌 AI 的研究人員日前在 arxiv 貼出一篇文章,給出了較早的神經(jīng)網(wǎng)絡(luò)訓(xùn)練相關(guān)的理論證明。

實(shí)驗(yàn)中,他們將一個(gè)實(shí)際的神經(jīng)網(wǎng)絡(luò)訓(xùn)練過(guò)程與線性模型的訓(xùn)練過(guò)程相比,發(fā)現(xiàn)兩者高度一致。這里用到的神經(jīng)網(wǎng)絡(luò)是一個(gè) wide ResNet,包括 ReLU 層、卷積層、pooling 層和 batch normalization;線性模型是用 ResNet 關(guān)于其初始 (隨機(jī)) 參數(shù)的泰勒級(jí)數(shù)建立的網(wǎng)絡(luò)。

將神經(jīng)網(wǎng)絡(luò)的訓(xùn)練過(guò)程與線性模型的相比,兩者高度一致

在多個(gè)不同模型上試驗(yàn)并排除量化誤差后,觀察結(jié)果依舊保持一致。由此,谷歌 AI 研究人員得出結(jié)論,當(dāng)學(xué)習(xí)率比較小且網(wǎng)絡(luò)足夠?qū)?(不必?zé)o限寬) 的時(shí)候,神經(jīng)網(wǎng)絡(luò)就是線性模型。

由此得出的一個(gè)推論是,使用梯度下降訓(xùn)練的大型網(wǎng)絡(luò)集成能夠用一個(gè)高斯過(guò)程描述,而且在梯度下降的任意時(shí)間都能用完備形式化描述這個(gè)高斯過(guò)程。

這些觀察結(jié)果也構(gòu)成了一個(gè)理論框架基礎(chǔ),可以用來(lái)初步解釋長(zhǎng)期以來(lái)困擾深度學(xué)習(xí)研究界的一個(gè)難題:梯度下降究竟在哪些情況下,具體是如何優(yōu)于貝葉斯優(yōu)化?

在訓(xùn)練深度神經(jīng)網(wǎng)絡(luò)被戲謔為 “調(diào)參煉丹” 的當(dāng)下,這一發(fā)現(xiàn)猶如一道希望的強(qiáng)光,射進(jìn)還被排除在 “科學(xué)” 之外的深度學(xué)習(xí)領(lǐng)域,激動(dòng)人心。

相關(guān)論文:使用梯度下降訓(xùn)練的任意深度的 Wide 神經(jīng)網(wǎng)絡(luò)與線性模型的一致性

終于,調(diào)參不再是煉丹:較早的關(guān)于神經(jīng)網(wǎng)絡(luò)訓(xùn)練的理論證明

基于深度神經(jīng)網(wǎng)絡(luò)的機(jī)器學(xué)習(xí)模型在許多任務(wù)中取得了前所未有的性能。通常,這些模型被認(rèn)為是復(fù)雜系統(tǒng),其中許多類型的理論分析是很棘手的。此外,由于控制優(yōu)化的通常是高維的非凸損失平面 (non-convex loss surfaces),因此要描述這些模型的基于梯度的訓(xùn)練動(dòng)態(tài)機(jī)制具有挑戰(zhàn)性。

就像在物理科學(xué)中常見(jiàn)的那樣,研究這些系統(tǒng)的極限通常可以解釋這些難題。對(duì)于神經(jīng)網(wǎng)絡(luò)來(lái)說(shuō),其中一個(gè)極限就是它的 “無(wú)限寬度”(infinite width),指的是完全連接層中的隱藏單元數(shù)量,或卷積層中的通道數(shù)量。

在此限制下,網(wǎng)絡(luò)初始化時(shí)的輸出取自高斯過(guò)程 (GP);此外,在使用平方損失進(jìn)行較精確貝葉斯訓(xùn)練后,網(wǎng)絡(luò)輸出仍然由 GP 控制。除了理論上的簡(jiǎn)單性,nfinite-width 這一限制也具有實(shí)際意義,因?yàn)樵S多研究已經(jīng)證明,更寬的網(wǎng)絡(luò)可以更好地進(jìn)行泛化。

在這項(xiàng)工作中,我們探索了梯度下降下寬的神經(jīng)網(wǎng)絡(luò)的學(xué)習(xí)動(dòng)態(tài)機(jī)制 (learning dynamics),并發(fā)現(xiàn)動(dòng)態(tài)的權(quán)重空間描述變得非常簡(jiǎn)單:隨著寬度變大,神經(jīng)網(wǎng)絡(luò)可以有效地被關(guān)于其初始化參數(shù)的一階泰勒展開(kāi)式 (first-order Taylor expansion) 取代。

對(duì)于這種誘導(dǎo)的線性模型,梯度下降的動(dòng)態(tài)機(jī)制變得易于分析了。雖然線性化只在無(wú)限寬度限制下是較精確的,但我們發(fā)現(xiàn),即使是有限寬度的情況下,原始網(wǎng)絡(luò)的預(yù)測(cè)與線性化版本的預(yù)測(cè)仍然非常一致。這種一致性在不同的架構(gòu)、優(yōu)化方法和損失函數(shù)之間都存在。

對(duì)于平方損失 (squared loss),較精確的學(xué)習(xí)動(dòng)態(tài)機(jī)制允許封閉形式的解決方案,這允許我們用 GP 來(lái)描述預(yù)測(cè)分布的演化。這一結(jié)果可以看作是 “先采樣再優(yōu)化”(sample-then-optimize) 后驗(yàn)采樣對(duì)深度神經(jīng)網(wǎng)絡(luò)訓(xùn)練的延伸。我們的經(jīng)驗(yàn)?zāi)M證實(shí),該結(jié)果準(zhǔn)確地模擬了具有不同隨機(jī)初始化的有限寬度模型集合中預(yù)測(cè)的變化。

谷歌 AI 的研究人員表示,這篇論文的幾大主要貢獻(xiàn)包括:

首先,我們以 Jacot et al. (2018) 最近的研究成果為基礎(chǔ),該成果描述了在 infinite width 限制下,整個(gè)梯度下降訓(xùn)練過(guò)程中網(wǎng)絡(luò)輸出的較精確動(dòng)態(tài)。他們的結(jié)果證明了參數(shù)空間的梯度下降對(duì)應(yīng)于函數(shù)空間中關(guān)于新核的核梯度下降 (kernel gradient descent),即 Neural Tangent Kernel (NTK)。

我們工作的一個(gè)關(guān)鍵貢獻(xiàn)是證明了參數(shù)空間中的動(dòng)態(tài)等價(jià)于所有網(wǎng)絡(luò)參數(shù)、權(quán)重和偏差集合中的仿射模型的訓(xùn)練動(dòng)態(tài)。無(wú)論損失函數(shù)的選擇如何,這個(gè)結(jié)果都成立。在平方損失的情況下, dynamics 允許一個(gè)封閉形式的解作為時(shí)間函數(shù)。

無(wú)限寬 (infinitely wide) 神經(jīng)網(wǎng)絡(luò)初始化時(shí)的輸出是高斯的,并且如 Jacot et al.(2018) 中所述,平方損失在整個(gè)訓(xùn)練過(guò)程中始終是高斯的。我們推導(dǎo)了該 GP 的均值和協(xié)方差函數(shù)的顯式時(shí)間依賴表達(dá)式,并為結(jié)果提供了新的解釋。

具體來(lái)說(shuō),該解釋對(duì)梯度下降與參數(shù)的貝葉斯后驗(yàn)采樣的不同機(jī)制提供了一種定量理解:雖然這兩種方法都取自 GP,但梯度下降不會(huì)從任何概率模型的后驗(yàn)生成樣本。

這一觀察結(jié)果與 (Matthews et al.,2017) 的 “先采樣后優(yōu)化”(sample-then-optimize) 框架形成了對(duì)比,在該框架中,只訓(xùn)練頂層權(quán)重,梯度下降從貝葉斯后驗(yàn)采樣。

這些觀察構(gòu)成了一個(gè)框架,用來(lái)分析長(zhǎng)期存在的問(wèn)題,如梯度下降是否、如何以及在何種情況下提供了相對(duì)于貝葉斯推理的具體好處。

正如 Chizat & Bach (2018b) 中論述的,這些理論結(jié)果可能過(guò)于簡(jiǎn)單,無(wú)法適用于現(xiàn)實(shí)的神經(jīng)網(wǎng)絡(luò)。但是,我們通過(guò)實(shí)證研究證明了該理論在 finite-width 設(shè)置中的適用性,發(fā)現(xiàn)它準(zhǔn)確地描述了各種條件下的學(xué)習(xí)動(dòng)態(tài)機(jī)制和后驗(yàn)函數(shù)分布,包括一些實(shí)際的網(wǎng)絡(luò)架構(gòu),如 Wide Residual Network (Zagoruyko & Komodakis, 2016)。

理論結(jié)果:無(wú)限寬的神經(jīng)網(wǎng)絡(luò)就是線性模型

線性化網(wǎng)絡(luò) (linearized network)

此處,我們將考慮線性化網(wǎng)絡(luò)的訓(xùn)練動(dòng)態(tài),具體地說(shuō),就是用一階泰勒展開(kāi)代替神經(jīng)網(wǎng)絡(luò)的輸出:

值得注意的是,flint 是兩項(xiàng)之和:第一項(xiàng)是網(wǎng)絡(luò)的初始輸出,在訓(xùn)練過(guò)程中保持不變;第二項(xiàng)是在訓(xùn)練過(guò)程中捕捉對(duì)初始值的變化。

使用這個(gè)線性化函數(shù)的梯度流的動(dòng)態(tài)受到如下約束:

無(wú)限寬度限制產(chǎn)生高斯過(guò)程

當(dāng)隱藏層的寬度接近無(wú)窮大時(shí),中心極限定理 (CLT) 意味著初始化 {f0(x)}x∈X 時(shí)的輸出在分布上收斂于多元高斯分布。這一點(diǎn)可以用歸納法非正式的進(jìn)行證明。

因此,隨機(jī)初始化的神經(jīng)網(wǎng)絡(luò)對(duì)應(yīng)于一類高斯過(guò)程 (以下簡(jiǎn)稱 NNGP),將有利于神經(jīng)網(wǎng)絡(luò)的完全貝葉斯處理。

梯度下降訓(xùn)練中的高斯過(guò)程

如果我們?cè)诔跏蓟髢鼋Y(jié)變量 θ≤L,并且只優(yōu)化 θ≤L+1,那么原始網(wǎng)絡(luò)及其線性化是相同的。讓寬度趨于無(wú)窮,這個(gè)特殊的 tangent kernel 的概率將收斂于 K。這是用于評(píng)估高斯過(guò)程后驗(yàn)的 “先采樣后優(yōu)化” 方法的實(shí)現(xiàn)。

我們對(duì)比了 NNGP、NTK-GP 和 NN 集合的預(yù)測(cè)分布,如下圖所示:

訓(xùn)練神經(jīng)網(wǎng)絡(luò)輸出的均值和方差的動(dòng)態(tài)遵循線性化的分析動(dòng)態(tài)機(jī)制

黑線表示來(lái)自 100 個(gè)訓(xùn)練神經(jīng)網(wǎng)絡(luò)集合的預(yù)測(cè)輸出分布的時(shí)間演變; 藍(lán)色區(qū)域表示整個(gè)訓(xùn)練中輸出分布的分析預(yù)測(cè);最后,紅色區(qū)域表示僅訓(xùn)練頂層的預(yù)測(cè),對(duì)應(yīng)于 NNGP。

受過(guò)訓(xùn)練的網(wǎng)絡(luò)有 3 個(gè)隱藏層,寬度為 8192。陰影區(qū)域和虛線表示平均值的 2 個(gè)標(biāo)準(zhǔn)偏差。

無(wú)限寬度網(wǎng)絡(luò)是線性化網(wǎng)絡(luò)

原始網(wǎng)絡(luò)的常微分方程 (ODE) 在一般情況下是不可解的。在積分函數(shù)梯度范數(shù)保持隨機(jī)有界為n1,n2,…,nL→∞的技術(shù)假設(shè)下:

值得注意的是,上面公式中的上界只是理論性的,是根據(jù)經(jīng)驗(yàn)觀察得到的:

訓(xùn)練過(guò)程中 Relative Frobenius 范數(shù)的改變

在 MSE 設(shè)置中,我們可以對(duì)原始網(wǎng)絡(luò)的輸出與其線性化輸出之間的差異進(jìn)行上限:

對(duì)于非常寬的網(wǎng)絡(luò),我們可以用線性化動(dòng)態(tài)機(jī)制來(lái)近似訓(xùn)練動(dòng)態(tài)機(jī)制。

而從網(wǎng)絡(luò)線性化中獲得的另一個(gè)見(jiàn)解是,動(dòng)態(tài)機(jī)制等效于隨機(jī)特征法,其中,特征是模型相對(duì)于其權(quán)重的梯度。

實(shí)驗(yàn)

我們的實(shí)驗(yàn)證明,寬的神經(jīng)網(wǎng)絡(luò)的訓(xùn)練動(dòng)態(tài)能很好地被線性模型捕獲。

我們考慮了全連接、卷積和 wide ResNet 架構(gòu),這些架構(gòu)使用足夠小的學(xué)習(xí)率進(jìn)行 full-batch 或 mini-batch 梯度下降訓(xùn)練,從而使連續(xù)時(shí)間近似保持良好。

我們考慮了 CIFAR10 上的 two-class 分類任務(wù) (馬匹和飛機(jī)),以及 MNIST 和 CIFAR-10 上的 ten-class 分類。

在 MSE loss 的情況下,輸出分布在整個(gè)訓(xùn)練過(guò)程中保持高斯分布。圖 3 顯示,神經(jīng)網(wǎng)絡(luò)及其對(duì)應(yīng)的 GP 的集合顯示了在兩個(gè)訓(xùn)練點(diǎn)之間插值的輸入點(diǎn)的預(yù)測(cè)輸出分布。

圖 4:對(duì)于網(wǎng)絡(luò)輸出和單個(gè)權(quán)重,模型的 full batch 梯度下降在線性化方面的表現(xiàn)與 analytic dynamics 類似

在圖 4 中,我們看到線性模型很好地描述了具有交叉熵?fù)p失的 CIFAR-10 所有類分類任務(wù)的 learning dynamics。

圖 5:卷積網(wǎng)絡(luò)及其線性化在使用動(dòng)量?jī)?yōu)化器進(jìn)行 full batch 梯度下降訓(xùn)練時(shí)表現(xiàn)類似

圖 6:在通過(guò) SGD 進(jìn)行訓(xùn)練時(shí),神經(jīng)網(wǎng)絡(luò)及其線性化表現(xiàn)相似,在 MNIST 上的交叉熵?fù)p失上具有動(dòng)量

圖 7:兩者都利用 SGD 在 CIFAR-10 上訓(xùn)練時(shí), wide ResNet 及其線性化的表現(xiàn)相似

完整論文:

https://arxiv.org/pdf/1902.06720.pdf

聲明:文章收集于網(wǎng)絡(luò),如有侵權(quán),請(qǐng)聯(lián)系小編及時(shí)處理,謝謝!

歡迎加入本站公開(kāi)興趣群

商業(yè)智能與數(shù)據(jù)分析群

興趣范圍包括各種讓數(shù)據(jù)產(chǎn)生價(jià)值的辦法,實(shí)際應(yīng)用案例分享與討論,分析工具,ETL工具,數(shù)據(jù)倉(cāng)庫(kù),數(shù)據(jù)挖掘工具,報(bào)表系統(tǒng)等全方位知識(shí)

QQ群:81035754

文章版權(quán)歸作者所有,未經(jīng)允許請(qǐng)勿轉(zhuǎn)載,若此文章存在違規(guī)行為,您可以聯(lián)系管理員刪除。

轉(zhuǎn)載請(qǐng)注明本文地址:http://systransis.cn/yun/4851.html

相關(guān)文章

  • 深度學(xué)習(xí)否以蠻力取勝?

    摘要:第一條是關(guān)于深度學(xué)習(xí)的晚宴,討論的是背后的數(shù)學(xué)支撐,以及未來(lái)的方向。大數(shù)據(jù)與深度學(xué)習(xí)是一種蠻力盡管當(dāng)場(chǎng)說(shuō)了很多觀點(diǎn),但是最核心的還是援引了愛(ài)因斯坦關(guān)于上帝的隱喻。不過(guò),我自己并不同意深度學(xué)習(xí)必須等同于機(jī)器蠻力。 Vladimir Vapnik 介紹:Vladimir Vapnik 被稱為統(tǒng)計(jì)學(xué)習(xí)理論之父,他出生于俄羅斯,1990 年底移居美國(guó),在美國(guó)貝爾實(shí)驗(yàn)室一直工作到 2002 年,之后加...

    CarlBenjamin 評(píng)論0 收藏0
  • 大數(shù)據(jù)與深度學(xué)習(xí)一種蠻力?

    摘要:進(jìn)一步說(shuō),如果承認(rèn)深度學(xué)習(xí)系統(tǒng)在解決問(wèn)題時(shí)不可思議的表現(xiàn),那么大數(shù)據(jù)和深度學(xué)習(xí),都有某種蠻力的味道。不過(guò),我自己并不同意深度學(xué)習(xí)必須等同于機(jī)器蠻力。 Facebook去年底挖來(lái)了一個(gè)機(jī)器學(xué)習(xí)大神Vladimir Vapnik,他是統(tǒng)計(jì)學(xué)習(xí)理論和支持向量機(jī)的主要發(fā)明者。Vladimir Vapnik被稱為統(tǒng)計(jì)學(xué)習(xí)理論之父,他出生于俄羅斯,1990年底移居美國(guó),在美國(guó)貝爾實(shí)驗(yàn)室一直工作到2002...

    lidashuang 評(píng)論0 收藏0
  • 大數(shù)據(jù)與深度學(xué)習(xí)一種蠻力?

    摘要:大數(shù)據(jù)與深度學(xué)習(xí)是一種蠻力盡管當(dāng)場(chǎng)說(shuō)了很多觀點(diǎn),但是最核心的還是援引了愛(ài)因斯坦關(guān)于上帝的隱喻。大數(shù)據(jù)與深度學(xué)習(xí)是一種蠻力在算法和模型上,我們是否能發(fā)明所有東西認(rèn)為,在機(jī)器學(xué)習(xí)的算法和模型上,我們并不能發(fā)明所有東西。 Facebook去年底挖來(lái)了一個(gè)機(jī)器學(xué)習(xí)大神Vladimir Vapnik,他是統(tǒng)計(jì)學(xué)習(xí)理論和支持向量機(jī)的主要發(fā)明者。Vladimir Vapnik被稱為統(tǒng)計(jì)學(xué)習(xí)理論之父,他出生...

    yankeys 評(píng)論0 收藏0
  • 深度學(xué)習(xí)out了?深度解讀AI領(lǐng)域三大前瞻技術(shù)

    摘要:而這種舉一反三的能力在機(jī)器學(xué)習(xí)領(lǐng)域同樣適用,科學(xué)家將其稱之為遷移學(xué)習(xí)。與深度學(xué)習(xí)相比,我們技術(shù)較大優(yōu)點(diǎn)是具有可證明的性能保證。近幾年的人工智能熱潮中,深度學(xué)習(xí)是最主流的技術(shù),以及之后的成功,更是使其幾乎成為的代名詞。 如今,人類將自己的未來(lái)放到了技術(shù)手里,無(wú)論是讓人工智能更像人類思考的算法,還是讓機(jī)器人大腦運(yùn)轉(zhuǎn)更快的芯片,都在向奇點(diǎn)靠近。谷歌工程總監(jiān)、《奇點(diǎn)臨近》的作者庫(kù)茲韋爾認(rèn)為,一旦智能...

    muddyway 評(píng)論0 收藏0

發(fā)表評(píng)論

0條評(píng)論

最新活動(dòng)
閱讀需要支付1元查看
<