OpenAI發(fā)現(xiàn)打破神經(jīng)網(wǎng)絡(luò)黑盒魔咒新思路：梯度噪聲量表

崔曉明發(fā)布于2019-04-25 18:30 / 2978人閱讀

摘要：更廣泛地說(shuō)，這些結(jié)果表明神經(jīng)網(wǎng)絡(luò)訓(xùn)練不需要被認(rèn)為是一種煉丹術(shù)，而是可以被量化和系統(tǒng)化。中間的曲線中存在彎曲，漸變?cè)肼晿?biāo)度預(yù)測(cè)彎曲發(fā)生的位置。

由于復(fù)雜的任務(wù)往往具有更嘈雜的梯度，因此越來(lái)越大的batch計(jì)算包，可能在將來(lái)變得有用，從而消除了AI系統(tǒng)進(jìn)一步增長(zhǎng)的一個(gè)潛在限制。

更廣泛地說(shuō)，這些結(jié)果表明神經(jīng)網(wǎng)絡(luò)訓(xùn)練不需要被認(rèn)為是一種煉丹術(shù)，而是可以被量化和系統(tǒng)化。

在過(guò)去的幾年里，AI研究人員通過(guò)數(shù)據(jù)并行技術(shù)，在加速神經(jīng)網(wǎng)絡(luò)訓(xùn)練方面取得了越來(lái)越大的成功，數(shù)據(jù)并行性將大batch數(shù)據(jù)分散到許多機(jī)器上。

研究人員成功地使用了成各種的batch進(jìn)行圖像分類和語(yǔ)言建模，甚至玩Dota 2。

這些大batch數(shù)據(jù)允許將越來(lái)越多的計(jì)算量有效地投入到單個(gè)模型的訓(xùn)練中，并且是人工智能訓(xùn)練計(jì)算快速增長(zhǎng)的重要推動(dòng)者。

但是，batch如果太大，則梯度消失。并且不清楚為什么這些限制對(duì)于某些任務(wù)影響更大而對(duì)其他任務(wù)影響較小。

我們已經(jīng)發(fā)現(xiàn)，通過(guò)測(cè)量梯度噪聲標(biāo)度，一個(gè)簡(jiǎn)單的統(tǒng)計(jì)量來(lái)量化網(wǎng)絡(luò)梯度的信噪比，我們可以近似預(yù)測(cè)較大有效batch大小。

同理，噪聲尺度可以測(cè)量模型所見(jiàn)的數(shù)據(jù)變化（在訓(xùn)練的給定階段）。當(dāng)噪聲規(guī)模很小時(shí)，快速并行查看大量數(shù)據(jù)變得多余；反之，我們?nèi)匀豢梢詮拇骲atch數(shù)據(jù)中學(xué)到很多東西。

這種類型的統(tǒng)計(jì)數(shù)據(jù)被廣泛用于樣本量選擇，并且已被提議用于深度學(xué)習(xí)，但尚未被系統(tǒng)地測(cè)量或應(yīng)用于現(xiàn)代訓(xùn)練運(yùn)行。

我們對(duì)上圖所示的各種機(jī)器學(xué)習(xí)任務(wù)進(jìn)行了驗(yàn)證，包括圖像識(shí)別，語(yǔ)言建模，Atari游戲和Dota。

由于大batch通常需要仔細(xì)和昂貴的調(diào)整或特殊高效的學(xué)習(xí)率，因此提前知道上限在訓(xùn)練新模型方面提供了顯著的實(shí)際優(yōu)勢(shì)。

我們發(fā)現(xiàn)，根據(jù)訓(xùn)練的現(xiàn)實(shí)時(shí)間和我們用于進(jìn)行訓(xùn)練的總體積計(jì)算（與美元成本成比例）之間的權(quán)衡，可視化這些實(shí)驗(yàn)的結(jié)果是有幫助的。

在非常小的batch的情況下，batch加倍可以讓我們?cè)诓皇褂妙~外計(jì)算的情況下減少一半的訓(xùn)練。在非常大的batch，更多的并行化不會(huì)導(dǎo)致更快的訓(xùn)練。中間的曲線中存在“彎曲”，漸變?cè)肼晿?biāo)度預(yù)測(cè)彎曲發(fā)生的位置。

我們通過(guò)設(shè)置性能水平（比如在Beam Rider的Atari游戲中得分為1000）來(lái)制作這些曲線，并觀察在不同batch大小下訓(xùn)練到該性能所需的時(shí)間。結(jié)果與績(jī)效目標(biāo)的許多不同值相對(duì)較緊密地匹配了我們模型的預(yù)測(cè)。

梯度噪聲尺度中的模式

我們?cè)谔荻仍肼暳勘碇杏^察到了幾種模式，這些模式提供了人工智能訓(xùn)練未來(lái)可能存在的線索。

首先，在我們的實(shí)驗(yàn)中，噪聲標(biāo)度通常在訓(xùn)練過(guò)程中增加一個(gè)數(shù)量級(jí)或更多。

直觀地，這意味著網(wǎng)絡(luò)在訓(xùn)練早期學(xué)習(xí)任務(wù)的“更明顯”的特征，并在以后學(xué)習(xí)更復(fù)雜的特征。

例如，在圖像分類器的情況下，網(wǎng)絡(luò)可能首先學(xué)習(xí)識(shí)別大多數(shù)圖像中存在的小尺度特征（例如邊緣或紋理），而稍后將這些部分組合成更一般的概念，例如貓和狗。

要查看各種各樣的邊緣或紋理，網(wǎng)絡(luò)只需要看到少量圖像，因此噪聲比例較??；一旦網(wǎng)絡(luò)更多地了解更大的對(duì)象，它就可以一次處理更多的圖像，而不會(huì)看到重復(fù)的數(shù)據(jù)。

我們看到一些初步跡象表明，在同一數(shù)據(jù)集上不同模型具有相同的效果。更強(qiáng)大的模型具有更高的梯度噪聲標(biāo)度，但這僅僅是因?yàn)樗鼈儗?shí)現(xiàn)了更低的損耗。

因此，有一些證據(jù)表明，訓(xùn)練中增加的噪聲比例不僅僅是收斂的假象，而是因?yàn)槟Ｐ妥兊酶?。如果這是真的，那么我們期望未來(lái)的更強(qiáng)大的模型具有更高的噪聲規(guī)模，因此可以更加并行化。

在監(jiān)督學(xué)習(xí)的背景下，從MNIST到SVHN到ImageNet都有明顯的進(jìn)展。在強(qiáng)化學(xué)習(xí)的背景下，從Atari Pong到Dota 1v1到Dota 5v5有明顯的進(jìn)展，較佳batch大小相差10,000倍以上。

因此，隨著AI進(jìn)入新的和更困難的任務(wù)，我們希望模型能夠容忍更高的batch。

啟示

數(shù)據(jù)并行度顯著影響AI功能的進(jìn)展速度。更快的訓(xùn)練使更強(qiáng)大的模型成為可能，并通過(guò)更快的迭代時(shí)間加速研究。

在早期研究中，我們觀察到用于訓(xùn)練較大ML模型的計(jì)算，每3.5個(gè)月翻一番。我們注意到這種趨勢(shì)是由經(jīng)濟(jì)能力和算法并行訓(xùn)練的能力共同決定的。

后一因素（算法可并行性）更難以預(yù)測(cè)，其局限性尚不清楚，但我們目前的結(jié)果代表了系統(tǒng)化和量化的一步。

特別是，我們有證據(jù)表明，在同一任務(wù)中，更困難的任務(wù)和更強(qiáng)大的模型將允許比我們迄今為止看到的更激進(jìn)的數(shù)據(jù)并行性，這為訓(xùn)練計(jì)算的持續(xù)快速指數(shù)增長(zhǎng)提供了關(guān)鍵驅(qū)動(dòng)因素。

參考鏈接：

https://blog.openai.com/science-of-ai/

聲明：文章收集于網(wǎng)絡(luò)，如有侵權(quán)，請(qǐng)聯(lián)系小編及時(shí)處理，謝謝！歡迎加入本站公開(kāi)興趣群

商業(yè)智能與數(shù)據(jù)分析群

興趣范圍包括各種讓數(shù)據(jù)產(chǎn)生價(jià)值的辦法，實(shí)際應(yīng)用案例分享與討論，分析工具，ETL工具，數(shù)據(jù)倉(cāng)庫(kù)，數(shù)據(jù)挖掘工具，報(bào)表系統(tǒng)等全方位知識(shí)

QQ群：81035754

GPU云服務(wù)器云服務(wù)器網(wǎng)絡(luò)流量表打破打破了啟用網(wǎng)絡(luò)發(fā)現(xiàn)

文章版權(quán)歸作者所有，未經(jīng)允許請(qǐng)勿轉(zhuǎn)載,若此文章存在違規(guī)行為，您可以聯(lián)系管理員刪除。

轉(zhuǎn)載請(qǐng)注明本文地址：http://systransis.cn/yun/4834.html

發(fā)表評(píng)論

登陸后可評(píng)論

0條評(píng)論

崔曉明

男|高級(jí)講師

我要關(guān)注我要私信

TA的文章

ZJI：香港華為云線路服務(wù)器月減300元,E3服務(wù)器月付450元起

閱讀 2524·2021-09-26 10:18
中秋福利鴨

閱讀 3398·2021-09-22 10:02
前端硬核面試專題之 CSS 55 問(wèn)

閱讀 3206·2019-08-30 15:44
徹底理清前端單頁(yè)面應(yīng)用（SPA）的實(shí)現(xiàn)原理【精讀源碼】

閱讀 3335·2019-08-30 15:44
用 :focus-within 實(shí)現(xiàn)純 CSS 下拉框組件

閱讀 1841·2019-08-29 15:25
手摸手教你用canvas實(shí)現(xiàn)給圖片添加平鋪水印

閱讀 2585·2019-08-26 14:04
關(guān)于跨域以及跨域的實(shí)現(xiàn)方式

閱讀 2050·2019-08-26 12:15
一篇文章帶你學(xué)習(xí)js數(shù)據(jù)類型

閱讀 2447·2019-08-26 11:43

成人国产在线小视频_日韩寡妇人妻调教在线播放_色成人www永久在线观看_2018国产精品久久_亚洲欧美高清在线30p_亚洲少妇综合一区_黄色在线播放国产_亚洲另类技巧小说校园_国产主播xx日韩_a级毛片在线免费

資訊專欄INFORMATION COLUMN

上云采購(gòu)季！| 2核2G4M爆款云服務(wù)器低至59元/年，更有多臺(tái)、長(zhǎng)期優(yōu)惠，快來(lái)選購(gòu)！

OpenAI發(fā)現(xiàn)打破神經(jīng)網(wǎng)絡(luò)黑盒魔咒新思路：梯度噪聲量表

相關(guān)文章

OpenAI Ian Goodfellow的Quora問(wèn)答：高歌猛進(jìn)的機(jī)器學(xué)習(xí)人生

OpenAI開(kāi)源TF梯度替換插件，十倍模型計(jì)算時(shí)間僅增加20%

發(fā)表評(píng)論

0條評(píng)論

崔曉明

男|高級(jí)講師

TA的文章

ZJI：香港華為云線路服務(wù)器月減300元,E3服務(wù)器月付450元起

中秋福利鴨

前端硬核面試專題之 CSS 55 問(wèn)

徹底理清前端單頁(yè)面應(yīng)用（SPA）的實(shí)現(xiàn)原理【精讀源碼】

用 :focus-within 實(shí)現(xiàn)純 CSS 下拉框組件

手摸手教你用canvas實(shí)現(xiàn)給圖片添加平鋪水印

關(guān)于跨域以及跨域的實(shí)現(xiàn)方式

一篇文章帶你學(xué)習(xí)js數(shù)據(jù)類型

最新活動(dòng)

資訊專欄INFORMATION COLUMN

上云采購(gòu)季！| 2核2G4M爆款云服務(wù)器低至59元/年，更有多臺(tái)、長(zhǎng)期優(yōu)惠，快來(lái)選購(gòu)！

OpenAI發(fā)現(xiàn)打破神經(jīng)網(wǎng)絡(luò)黑盒魔咒新思路：梯度噪聲量表

相關(guān)文章

發(fā)表評(píng)論

0條評(píng)論

男|高級(jí)講師

TA的文章

最新活動(dòng)

上云采購(gòu)季！| 2核2G4M爆款云服務(wù)器低至59元/年，更有多臺(tái)、長(zhǎng)期優(yōu)惠，快來(lái)選購(gòu)！