利用遺傳算法優(yōu)化神經(jīng)網(wǎng)絡(luò)：Uber提出深度學(xué)習(xí)訓(xùn)練新方式

AlienZHOU 發(fā)布于2019-04-25 18:22 / 1149人閱讀

摘要：和的得分均未超過右遺傳算法在也表現(xiàn)得很好。深度遺傳算法成功演化了有著萬自由參數(shù)的網(wǎng)絡(luò)，這是通過一個傳統(tǒng)的進(jìn)化算法演化的較大的神經(jīng)網(wǎng)絡(luò)。

Uber 涉及領(lǐng)域廣泛，其中許多領(lǐng)域都可以利用機(jī)器學(xué)習(xí)改進(jìn)其運(yùn)作。開發(fā)包括神經(jīng)進(jìn)化在內(nèi)的各種有力的學(xué)習(xí)方法將幫助 Uber 發(fā)展更安全、更可靠的運(yùn)輸方案。

遺傳算法——訓(xùn)練深度學(xué)習(xí)網(wǎng)絡(luò)的有力競爭者

我們驚訝地發(fā)現(xiàn)，通過使用我們發(fā)明的一種新技術(shù)來高效演化 DNN，一個極其簡單的遺傳算法（GA）可以訓(xùn)練含有超過 400 萬參數(shù)的深度卷積網(wǎng)絡(luò)，從而可以在像素級別上玩 Atari 游戲；而且，它能在許多游戲中比現(xiàn)代深度強(qiáng)化學(xué)習(xí)（RL）算法（例如 DQN 和 A3C）或進(jìn)化策略（ES）表現(xiàn)得更好，同時由于更好的并行化能達(dá)到更快的速度。這個結(jié)果非常出乎意料：遺傳算法并非基于梯度進(jìn)行計算，沒人能預(yù)料遺傳算法能擴(kuò)展到如此大的參數(shù)空間；而且，使用遺傳算法卻能與較先進(jìn)的強(qiáng)化學(xué)習(xí)算法媲美、甚至超過強(qiáng)化學(xué)習(xí)，這在以前看來是根本不可能的。我們進(jìn)一步表明，現(xiàn)代遺傳算法的增強(qiáng)功能提高了遺傳算法的能力，例如新穎性搜索（novelty research），它同樣在 DNN 規(guī)模上發(fā)揮作用，且能夠促進(jìn)對于欺騙性問題（存在挑戰(zhàn)性局部最優(yōu)的問題）的探索。要知道，這些欺騙性問題通常對獎勵最優(yōu)化算法形成障礙，例如 Q 學(xué)習(xí)（DQN）、策略梯度算法（A3C）、進(jìn)化策略（ES）以及遺傳算法。

左：遺傳算法在 Frostbite 中得分 10500。DQN、AC3 和 ES 的得分均未超過 1000；右：遺傳算法在 Asteroids 也表現(xiàn)得很好。它的平均表現(xiàn)超越了 DQN 和 ES，但沒有超過 A3C。

通過梯度計算的安全突變

在論文「Safe Mutations for Deep and Recurrent Neural Networks through Output Gradients」中，我們展示了如何將神經(jīng)進(jìn)化和梯度相結(jié)合，以提高循環(huán)神經(jīng)網(wǎng)絡(luò)和深度神經(jīng)網(wǎng)絡(luò)的進(jìn)化能力。這種方法可以使上百層的深度神經(jīng)網(wǎng)絡(luò)成功進(jìn)化，遠(yuǎn)遠(yuǎn)超過了以前的神經(jīng)進(jìn)化方法所展示的可能性。我們通過計算網(wǎng)絡(luò)輸出關(guān)于權(quán)重的梯度（即，和在傳統(tǒng)深度學(xué)習(xí)中使用誤差梯度不同）來實(shí)現(xiàn)這一點(diǎn)，使得在隨機(jī)突變的校準(zhǔn)過程中，對最敏感的變量（相比其他變量而言）進(jìn)行更加精細(xì)的處理，從而解決大型網(wǎng)絡(luò)中隨機(jī)變量的一個主要問題。

這兩個動畫展示了用于解決迷宮問題的單個網(wǎng)絡(luò)的一批突變（左下角是起點(diǎn)，左上角是終點(diǎn)）。一般的突變大多不能解決這個問題，但是安全突變很大程度地在產(chǎn)生多樣性的同時保留了解決問題的能力，表明了安全突變的顯著優(yōu)勢。

ES 如何與 SGD 聯(lián)系起來？

我們的論文對 A Visual Guide to Evolution Strategies（參見「從遺傳算法到 OpenAI 新方向：進(jìn)化策略工作機(jī)制全解」）進(jìn)行了補(bǔ)充和完善。這是由 OpenAI 團(tuán)隊(duì)首先提出的想法（https://blog.openai.com/evolution-strategies/），即 ES 的變型——神經(jīng)進(jìn)化——可以在深度強(qiáng)化學(xué)習(xí)任務(wù)中競爭性地優(yōu)化深度神經(jīng)網(wǎng)絡(luò)。但是，迄今為止，這個結(jié)果有沒有更廣泛的應(yīng)用仍然只是猜想。通過進(jìn)一步創(chuàng)新 ES，我們通過一個綜合研究「On the Relationship Between the OpenAI Evolution Strategy and Stochastic Gradient Descent」深入了解 ES 和 SGD 的關(guān)聯(lián)，探索 ES 梯度近似實(shí)際上和在 MNIST 中通過 SGD 在每個 mini-batch 上計算的的最優(yōu)梯度的聯(lián)系有多緊密，以及這種近似如何導(dǎo)致了優(yōu)越的性能。我們發(fā)現(xiàn)，如果提供足夠的計算來改善梯度近似，ES 能在 MNIST 上實(shí)現(xiàn) 99% 的準(zhǔn)確率，這暗示著 ES 何以愈發(fā)成為深度強(qiáng)化學(xué)習(xí)的有力競爭者——因?yàn)樵诓⑿杏嬎阍黾訒r，還沒有方法能獲得完美的梯度信息。

ES 不只是傳統(tǒng)的有限差分

為了增加理解，一個伴隨性研究「ES Is More Than Just a Traditional Finite-Difference Approximator」經(jīng)驗(yàn)地證實(shí)，ES（具有足夠大的擾動尺寸參數(shù)）的行為與 SGD 表現(xiàn)得有差別。這是因?yàn)?ES 優(yōu)化的是一代策略群體（由概率分布描述，即搜索空間中的「云」）的預(yù)期回報，但 SGD 僅為單一的策略（搜索空間中的「點(diǎn)」）優(yōu)化回報。這種變化使得 ES 可以訪問搜索空間的不同區(qū)域，無論是好是壞（這兩種情況都被示出）。對每代的參數(shù)擾動進(jìn)行優(yōu)化的另一個結(jié)果是，ES 獲得了魯棒性，這是 SGD 不能做到的。強(qiáng)調(diào) ES 優(yōu)化每代的參數(shù)這一做法，同樣強(qiáng)調(diào)了 ES 和貝葉斯算法中的有趣聯(lián)系。

對步行者進(jìn)行重量的隨機(jī)擾動，TRPO 訓(xùn)練的步行者會產(chǎn)生明顯的不穩(wěn)定步態(tài)，而 ES 進(jìn)化的步行者步態(tài)顯得更加穩(wěn)定。初始的訓(xùn)練步行者位于每個 9 幀合成的中心（綠框）。

傳統(tǒng)的有限差分（梯度下降）不能跨越低適合度（fitness）的窄縫，但 ES 能容易地穿過并尋找另一側(cè)的更高適合度。

ES 會在高適合度的窄縫中慢慢停止，但傳統(tǒng)的有限差分（梯度下降）會毫無停頓地通過相同的路徑。這與前面的動畫一起說明了兩種不同方法的區(qū)別和權(quán)衡。

加強(qiáng)對 ES 的探索

深度神經(jīng)進(jìn)化有一個令人興奮的結(jié)果：之前為神經(jīng)進(jìn)化開發(fā)的工具集，現(xiàn)在成為了加強(qiáng)深度神經(jīng)網(wǎng)絡(luò)訓(xùn)練的候選者。我們通過引入新的算法「Improving Exploration in Evolution Strategies for Deep Reinforcement Learning via a Population of Novelty-Seeking Agents」進(jìn)行探索，這種算法將 ES 的優(yōu)化能力和可擴(kuò)展性與神經(jīng)進(jìn)化所獨(dú)有的、通過群體激勵將不同智能體區(qū)別開的促進(jìn)強(qiáng)化學(xué)習(xí)領(lǐng)域的探索結(jié)合起來。這種基于群體的探索有別于強(qiáng)化學(xué)習(xí)中單一智能體傳統(tǒng)，包括最近在深度強(qiáng)化學(xué)習(xí)領(lǐng)域的探究工作。我們的實(shí)驗(yàn)表明，通過增加這種新的探索方式，能夠提高 ES 在許多需要探索的領(lǐng)域（包括一些 Atari 游戲和 Mujoco 模擬器中的類人動作任務(wù)）的性能，從而避免欺騙性的局部最優(yōu)。

通過使用我們的超參數(shù)，ES 迅速收斂到局部最優(yōu)，即不需要再次吸入氧氣，因?yàn)槲胙鯕鈺簳r不能獲得獎勵。但是，通過探索，它學(xué)會了如何吸入氧氣，從而在未來獲得更高的獎勵。請注意，Salimans et al. 2017 并沒有報道 ES，根據(jù)他們的超參數(shù)，他們能夠?qū)崿F(xiàn)特定的局部最優(yōu)。但是，就像我們所展示的，沒有 ES，它很容易無限期地困在某些局部最優(yōu)處（而那個探索能夠幫助它跳出局部最優(yōu)）。

智能體需要學(xué)著跑得盡可能遠(yuǎn)。ES 從未學(xué)過避免欺騙性的陷阱。但是，通過添加一個探索壓力，其中一個學(xué)會了繞過陷阱。

結(jié)論

對有志于轉(zhuǎn)向深度神經(jīng)網(wǎng)絡(luò)的神經(jīng)進(jìn)化研究人員，有幾個重要因素值得考慮：首先，這種類型的實(shí)驗(yàn)需要的計算量比以前更多；對于這些新論文中的實(shí)驗(yàn)，我們經(jīng)常需要運(yùn)行成百上千個同步 CPU。但是，對 GPU 或 CPU 的需求不應(yīng)該被視為一個負(fù)擔(dān)；從長遠(yuǎn)來看，面對即將到來的世界，向大規(guī)模并行計算中心的規(guī)模變化也許意味著神經(jīng)進(jìn)化能利用未來的優(yōu)勢。

新的結(jié)果與之前在低維神經(jīng)進(jìn)化中觀察到的結(jié)果有顯著差異。它們有效推翻了多年來的直覺，特別是對高維度探索的潛力的啟發(fā)。正如在深度學(xué)習(xí)中發(fā)現(xiàn)的那樣，在復(fù)雜性的某些閾值之上，在高維度的搜索似乎變得更加容易，因?yàn)樗灰资艿骄植孔顑?yōu)的影響。雖然深度學(xué)習(xí)已經(jīng)對這種思維方式非常熟悉，但它的含義最近才在神經(jīng)進(jìn)化當(dāng)中開始被理解。

神經(jīng)進(jìn)化的再度興起，是舊算法與當(dāng)代計算量相結(jié)合產(chǎn)生驚人成果的另一個例子。神經(jīng)進(jìn)化的可行性非常有趣，因?yàn)樵谏窠?jīng)進(jìn)化社區(qū)中開發(fā)的許多技術(shù)可以立即在 DNN 規(guī)模上變得可行，它們每個都提供了不同工具以解決具有挑戰(zhàn)性的問題。此外，正如我們的論文所展示的，神經(jīng)進(jìn)化搜索與 SGD 不同，因此為機(jī)器學(xué)習(xí)工具箱提供了有趣的替代方法。我們想知道，深度神經(jīng)進(jìn)化是否會像深度學(xué)習(xí)一樣經(jīng)歷復(fù)興。如果是這樣，2017 年可能標(biāo)志著這個時代的開始，我們也非常期待未來會發(fā)生什么！

下面是我們今天發(fā)布的 5 篇論文及關(guān)鍵發(fā)現(xiàn)的總結(jié)：

Deep Neuroevolution: Genetic Algorithms are a Competitive Alternative for Training Deep Neural Networks for Reinforcement Learning

用簡單、傳統(tǒng)、基于群體的遺傳算法演化 DNN，在困難的深度強(qiáng)化學(xué)習(xí)問題上表現(xiàn)良好。在 Atari 游戲中，遺傳算法表現(xiàn)良好，與 ES 以及基于 Q 學(xué)習(xí)（DQN）和政策梯度算法（A3C）的深度強(qiáng)化學(xué)習(xí)算法表現(xiàn)相當(dāng)。

「深度遺傳算法（Deep GA）」成功演化了有著 400 萬自由參數(shù)的網(wǎng)絡(luò)，這是通過一個傳統(tǒng)的進(jìn)化算法演化的較大的神經(jīng)網(wǎng)絡(luò)。

表明了一個有趣的事實(shí)：在某些情況下，根據(jù)梯度更新不是優(yōu)化性能的較佳選擇。

將 DNN 和新穎性搜索（Novelty Search）相結(jié)合，這種探索算法被設(shè)計用于欺騙性任務(wù)和稀疏獎勵函數(shù)，以解決欺騙性的高維問題。其中，獎勵較大化算法（例如 GA 和 ES）都在這類問題中失敗了。

表明 Deep GA 的并行度優(yōu)于 DQN、A3C 和 ES，因此運(yùn)行比它們都快?？蓪?shí)現(xiàn)當(dāng)前較先進(jìn)的緊湊編碼技術(shù)，只用幾千字節(jié)就可以表示百萬量級參數(shù)的 DNN。

包含在 Atari 中隨機(jī)搜索的結(jié)果。令人驚訝的是，在一些游戲中，隨機(jī)搜索大大優(yōu)于 DQN、A3C 和 ES，不過它從沒有超過 GA。

令人驚訝的是，在一個 DNN 中，隨機(jī)搜索能比 DQN、A3C 和 ES 在 Frostbite 游戲中表現(xiàn)得更好，但是還是不能超過 GA。

Safe Mutations for Deep and Recurrent Neural Networks through Output Gradients

通過測量網(wǎng)絡(luò)敏感性改變特定連接權(quán)重，基于梯度的安全突變（SM-G）極大提高了大型深度循環(huán)網(wǎng)絡(luò)突變的效率。

計算關(guān)于權(quán)重的「輸出」梯度，而非如常規(guī)深度學(xué)習(xí)中誤差或損失函數(shù)的梯度，以允許隨機(jī)但安全的搜索步驟。

這兩種安全突變都不需要在領(lǐng)域當(dāng)中的額外實(shí)驗(yàn)或展示。

結(jié)果：深層神經(jīng)網(wǎng)絡(luò)（超過 100 層）和大型循環(huán)網(wǎng)絡(luò)現(xiàn)在只能通過 SM-G 的各種變形有效演化。

On the Relationship Between the OpenAI Evolution Strategy and Stochastic Gradient Descent

通過比較不同情況下由 ES 計算的近似梯度和由 SGD 在 MNIST 中計算的準(zhǔn)確梯度探究 ES 和 SGD 的關(guān)系。

開發(fā)快速代理，預(yù)測不同群體規(guī)模的 ES 預(yù)期表現(xiàn)。

介紹并演示不同加速和改善 ES 性能的方法。

有限擾動 ES（Limited perturbation ES）顯著加快了在并行基礎(chǔ)設(shè)施上的執(zhí)行速度。

「No-mini-batch ES」把針對 SGD 設(shè)計 mini-batch 傳統(tǒng)替換為適用于 ES 的不同方法，從而改進(jìn)梯度估計：這是這樣一種算法，它在算法的每次迭代中，將整個訓(xùn)練批的一個隨機(jī)子集分配給 ES 群體當(dāng)中的每個成員。這種專用于 ES 的方法在等效計算的情況下提供了更好的準(zhǔn)確度，且學(xué)習(xí)曲線甚至比 SGD 更加平滑。

「No-mini-batch ES」在測試運(yùn)行中達(dá)到了 99% 的準(zhǔn)確率，這是在本次監(jiān)督學(xué)習(xí)任務(wù)中，進(jìn)化方法的較佳報告性能。

總體上有助于說明為什么 ES 能在強(qiáng)化學(xué)習(xí)中成為有力競爭者。通過搜索域的實(shí)驗(yàn)獲得的梯度信息與監(jiān)督學(xué)習(xí)的性能目標(biāo)相比，信息量更少。

ES Is More Than Just a Traditional Finite Difference Approximator

強(qiáng)調(diào) ES 和傳統(tǒng)有限差分方法之間的重要區(qū)別，即 ES 優(yōu)化的是較佳解決方案的分布函數(shù)（而非單個較佳的解決方案）。

一個有趣的結(jié)果：由 ES 發(fā)現(xiàn)的解決方案傾向于在參數(shù)擾動上保持魯棒性。例如，我們表明 ES 的仿人類行走解決方案比 GA 和 TRPO 實(shí)現(xiàn)的類似解決方案對參數(shù)擾動的魯棒性更強(qiáng)。

另一個重要結(jié)果：ES 可能可以解決傳統(tǒng)方法困擾的一些問題，反之亦然。通過簡單的例子說明 ES 和傳統(tǒng)梯度跟隨之間的不同動力學(xué)。

Improving Exploration in Evolution Strategies for Deep Reinforcement Learning via a Population of Novelty-Seeking Agents

增加在 ES 中鼓勵深度探索的能力。

表明通過探究不同代的智能體群體并用于促進(jìn)小規(guī)模進(jìn)化神經(jīng)網(wǎng)絡(luò)中的探索性算法——特別是新穎性搜索（NS）和質(zhì)量多樣性（QD）算法——能與 ES 結(jié)合，從而改善在稀疏或欺騙性深度強(qiáng)化學(xué)習(xí)任務(wù)當(dāng)中的表現(xiàn)。

證實(shí)由此產(chǎn)生的新算法——NS-ES 和一個稱為 NSR-ES 的 QD-ES 版本——能夠避免 ES 所遭遇的局部最優(yōu)問題，從而在某些任務(wù)中達(dá)到高性能。這些任務(wù)包括，模擬機(jī)器人學(xué)習(xí)繞過欺騙性陷阱達(dá)到高性能，以及 Atari 游戲當(dāng)中的高維像素任務(wù)。

將這個基于群體的搜索算法系列添加到深度強(qiáng)化學(xué)習(xí)工具箱中。?

原文鏈接：https://eng.uber.com/deep-neuroevolution/

歡迎加入本站公開興趣群

商業(yè)智能與數(shù)據(jù)分析群

興趣范圍包括各種讓數(shù)據(jù)產(chǎn)生價值的辦法，實(shí)際應(yīng)用案例分享與討論，分析工具，ETL工具，數(shù)據(jù)倉庫，數(shù)據(jù)挖掘工具，報表系統(tǒng)等全方位知識

QQ群：81035754

GPU云服務(wù)器云服務(wù)器最優(yōu)化方法大作業(yè)遺傳算法論文深度學(xué)習(xí)提出深度學(xué)習(xí)的提出誰提出深度學(xué)習(xí)

文章版權(quán)歸作者所有，未經(jīng)允許請勿轉(zhuǎn)載,若此文章存在違規(guī)行為，您可以聯(lián)系管理員刪除。

轉(zhuǎn)載請注明本文地址：http://systransis.cn/yun/4700.html

發(fā)表評論

登陸后可評論

0條評論

AlienZHOU

男|高級講師

我要關(guān)注我要私信

TA的文章

#黑五#virtono：全場最低3折優(yōu)惠，標(biāo)準(zhǔn)vps首月€2.68起，大內(nèi)存vps首月€18起，大硬

閱讀 2096·2021-11-24 10:34
新晉獨(dú)角獸房企估值10億美元！品牌域名Place.com價值七位數(shù)！

閱讀 3082·2021-11-22 11:58
二十五歲零基礎(chǔ)轉(zhuǎn)行做軟件測試怎么樣？一個過來人的心路歷程送給迷茫的你

閱讀 3732·2021-09-28 09:35
CSS居中完全指南——構(gòu)建CSS居中決策樹

閱讀 1743·2019-08-30 15:53
輕松自定義一個響應(yīng)式的timeline時間線組件（橫向和縱向）

閱讀 2793·2019-08-30 14:11
如何實(shí)現(xiàn)中間大兩頭小的輪播效果

閱讀 1569·2019-08-29 17:31
30分鐘用Node.js構(gòu)建一個API服務(wù)器

閱讀 560·2019-08-26 13:53
js中深拷貝與淺拷貝（堆內(nèi)存、棧內(nèi)存的關(guān)系）

閱讀 2155·2019-08-26 13:45

成人国产在线小视频_日韩寡妇人妻调教在线播放_色成人www永久在线观看_2018国产精品久久_亚洲欧美高清在线30p_亚洲少妇综合一区_黄色在线播放国产_亚洲另类技巧小说校园_国产主播xx日韩_a级毛片在线免费

資訊專欄INFORMATION COLUMN

上云采購季！| 2核2G4M爆款云服務(wù)器低至59元/年，更有多臺、長期優(yōu)惠，快來選購！

利用遺傳算法優(yōu)化神經(jīng)網(wǎng)絡(luò)：Uber提出深度學(xué)習(xí)訓(xùn)練新方式

相關(guān)文章

**進(jìn)化算法 + AutoML，谷歌提出新型神經(jīng)網(wǎng)絡(luò)架構(gòu)搜索方法**

**深度學(xué)習(xí)模型超參數(shù)搜索實(shí)用指南**

**深度學(xué)習(xí)與神經(jīng)科學(xué)相遇（一）[譯]**

世界杯押注還得看技術(shù)流，這個預(yù)測AI把賠率也算上了

**深度學(xué)習(xí)研究綜述**

發(fā)表評論

0條評論

AlienZHOU

男|高級講師

TA的文章

#黑五#virtono：全場最低3折優(yōu)惠，標(biāo)準(zhǔn)vps首月€2.68起，大內(nèi)存vps首月€18起，大硬

新晉獨(dú)角獸房企估值10億美元！品牌域名Place.com價值七位數(shù)！

二十五歲零基礎(chǔ)轉(zhuǎn)行做軟件測試怎么樣？一個過來人的心路歷程送給迷茫的你

CSS居中完全指南——構(gòu)建CSS居中決策樹

輕松自定義一個響應(yīng)式的timeline時間線組件（橫向和縱向）

如何實(shí)現(xiàn)中間大兩頭小的輪播效果

30分鐘用Node.js構(gòu)建一個API服務(wù)器

js中深拷貝與淺拷貝（堆內(nèi)存、棧內(nèi)存的關(guān)系）

最新活動

資訊專欄INFORMATION COLUMN

上云采購季！| 2核2G4M爆款云服務(wù)器低至59元/年，更有多臺、長期優(yōu)惠，快來選購！

利用遺傳算法優(yōu)化神經(jīng)網(wǎng)絡(luò)：Uber提出深度學(xué)習(xí)訓(xùn)練新方式

相關(guān)文章

發(fā)表評論

0條評論

男|高級講師

TA的文章

最新活動

上云采購季！| 2核2G4M爆款云服務(wù)器低至59元/年，更有多臺、長期優(yōu)惠，快來選購！