摘要:目前,這些選擇又稱為超參數(shù)是通過經(jīng)驗,隨機搜索或計算密集型搜索過程來選擇的。該技術(shù)是超參數(shù)優(yōu)化最常用的兩種方法隨機搜索和手動調(diào)試的結(jié)合。隨機搜索中會并行訓(xùn)練神經(jīng)網(wǎng)絡(luò)的群體,并在訓(xùn)練結(jié)束時選擇較高性能的模型。
在圍棋和Atari游戲、圖像識別與語言翻譯等領(lǐng)域,神經(jīng)網(wǎng)絡(luò)都取得了巨大的成功。但經(jīng)常被忽視的一點是,神經(jīng)網(wǎng)絡(luò)在這些特定應(yīng)用中的成功往往取決于研究開始時做出的一系列選擇,包括:使用何種類型的網(wǎng)絡(luò)、用于訓(xùn)練的數(shù)據(jù)和方法等。目前,這些選擇(又稱為超參數(shù))是通過經(jīng)驗,隨機搜索或計算密集型搜索過程來選擇的。如何選擇參數(shù)和調(diào)參往往成為訓(xùn)練神經(jīng)網(wǎng)絡(luò)的關(guān)鍵問題。
AI科技評論發(fā)現(xiàn),在DeepMind最近一篇名為《Population Based Training of Neural Network》的論文中,DeepMind提出了一種名為PBT(Population Based Training)訓(xùn)練神經(jīng)網(wǎng)絡(luò)的新方法,使得實驗者能夠快速地選擇較佳的超參數(shù)集和模型。這一技術(shù)可同時訓(xùn)練和優(yōu)化一系列網(wǎng)絡(luò),從而可以快速找到較佳的設(shè)置。更重要的是,這不會增加額外的計算開銷,可以像傳統(tǒng)技術(shù)一樣快速地完成,并且易于集成到現(xiàn)有的機器學(xué)習(xí)管道中。
該技術(shù)是超參數(shù)優(yōu)化最常用的兩種方法隨機搜索和手動調(diào)試的結(jié)合。隨機搜索中會并行訓(xùn)練神經(jīng)網(wǎng)絡(luò)的群體,并在訓(xùn)練結(jié)束時選擇較高性能的模型。通常情況下,這意味著只有一小部分群體會獲得良好的超參數(shù)訓(xùn)練,但更多的群體培訓(xùn)效果欠佳,浪費計算機資源。
隨機搜索超參數(shù)意味著同時并行獨立訓(xùn)練多個超參數(shù),某些超參數(shù)會讓模型表現(xiàn)良好,但大多數(shù)不會
如果我們使用手動調(diào)整超參數(shù),研究人員必須猜測較好的超參數(shù),使用它們訓(xùn)練模型和評估性能,這樣的過程將持續(xù)重復(fù),直到研究人員對網(wǎng)絡(luò)的性能感到滿意為止。雖然手動調(diào)參可以帶來更好的性能,但是缺點是這需要很長時間,有時需要數(shù)周甚至數(shù)月才能找到完美的設(shè)置。雖然有諸如貝葉斯優(yōu)化等一些自動化方法,但是仍然需要很長的時間,并且需要很多持續(xù)的訓(xùn)練來找到較好的超參數(shù)。
手動調(diào)參及貝葉斯優(yōu)化等方法通過一次觀察多個訓(xùn)練過程來改變超參數(shù),這通常較為緩慢
如同隨機搜索一樣,PBT首先也會并行訓(xùn)練多個神經(jīng)網(wǎng)絡(luò)與隨機超參,但是每一個網(wǎng)絡(luò)不是獨立訓(xùn)練的,而是使用來自其他群體的信息來完善超參數(shù),并將計算資源引導(dǎo)到更有優(yōu)秀的模型。這以算法靈感來自于于遺傳算法,每個群體成員都被稱為“工人”,并可以利用其余群體成員的信息,如從另一個性能較好的“工人”中復(fù)制模型參數(shù),此外,它還可以通過隨機更改當(dāng)前值來探索新的超參數(shù)。
隨著對神經(jīng)網(wǎng)絡(luò)群體訓(xùn)練的不斷深入,這一開發(fā)和探索的過程會定期進行,以確保所有群體中的“工人”都有一個良好的基礎(chǔ)性能水平,并且在此基礎(chǔ)上在探索新的超參數(shù)。這意味著PBT可以快速利用好的超參數(shù),可以為更有效的模型提供更多的訓(xùn)練時間,而且可以在整個訓(xùn)練過程中調(diào)整超參數(shù)值,從而自動學(xué)習(xí)較佳配置。
PBT從隨機搜索開始,但允許相互利用更有效的結(jié)果,并隨著訓(xùn)練的進行探索新的超參數(shù)
實驗表明,PBT在整個任務(wù)和領(lǐng)域都非常有效。DeepMind在DeepMind Lab,Atari和StarCraft II上使用較先進的方法嚴格測試了一套具有挑戰(zhàn)性的強化學(xué)習(xí)問題,在所有情況下,PBT穩(wěn)定的訓(xùn)練方式均能很快就找到了好的超參數(shù),并得到了超出基線的結(jié)果。
此外,PBT對訓(xùn)練生成對抗網(wǎng)絡(luò)(GAN)同樣有著一定的提升。在DeepMind使用PBT框架來較大化Inception Score(AI科技評論注:Inception Score是衡量視覺保真度的指標(biāo)之一)的測試中,結(jié)果從6.45顯著提升到了6.9。
DeepMind也將PBT應(yīng)用于Google較先進的機器翻譯神經(jīng)網(wǎng)絡(luò)之一。這些神經(jīng)網(wǎng)絡(luò)通常經(jīng)過精心設(shè)計的超參數(shù)時間表進行培訓(xùn),這往往需要數(shù)月時間才能有改善。使用PBT可以自動找到超參數(shù)的時間表,這些時間表可以匹配甚至超過現(xiàn)有的表現(xiàn),但不需要任何調(diào)整,同時通常只需要一次訓(xùn)練。
圖為在CPSAR-10和封閉網(wǎng)絡(luò)(FuN)用GANs對“吃豆小姐”(Ms Pacman)游戲訓(xùn)練過程中群體的演化過程。粉紅色的點代表最初的智能體,藍色為最終的智能體。
DeepMind認為,這項技術(shù)仍然存在很大的擴展空間。PBT對訓(xùn)練引入新超參數(shù)的新算法和神經(jīng)網(wǎng)絡(luò)體系結(jié)構(gòu)尤其有效,隨著不斷細化這個過程,PBT有望更好地應(yīng)用于尋找和開發(fā)更復(fù)雜和更強大的神經(jīng)網(wǎng)絡(luò)模型。
完整論文下載鏈接:https://deepmind.com/documents/135/population_based_training.pdf
歡迎加入本站公開興趣群商業(yè)智能與數(shù)據(jù)分析群
興趣范圍包括各種讓數(shù)據(jù)產(chǎn)生價值的辦法,實際應(yīng)用案例分享與討論,分析工具,ETL工具,數(shù)據(jù)倉庫,數(shù)據(jù)挖掘工具,報表系統(tǒng)等全方位知識
QQ群:81035754
文章版權(quán)歸作者所有,未經(jīng)允許請勿轉(zhuǎn)載,若此文章存在違規(guī)行為,您可以聯(lián)系管理員刪除。
轉(zhuǎn)載請注明本文地址:http://systransis.cn/yun/4691.html
摘要:近日,發(fā)表了一篇文章,詳細討論了為深度學(xué)習(xí)模型尋找較佳超參數(shù)集的有效策略。要知道,與機器學(xué)習(xí)模型不同,深度學(xué)習(xí)模型里面充滿了各種超參數(shù)。此外,在半自動全自動深度學(xué)習(xí)過程中,超參數(shù)搜索也是的一個非常重要的階段。 在文章開始之前,我想問你一個問題:你已經(jīng)厭倦了小心翼翼地照看你的深度學(xué)習(xí)模型嗎?如果是的話,那你就來對地方了。近日,F(xiàn)loydHub Blog發(fā)表了一篇文章,詳細討論了為深度學(xué)習(xí)模型尋...
摘要:例如,即插即用生成網(wǎng)絡(luò)通過優(yōu)化結(jié)合了自動編碼器損失,損失,和通過與訓(xùn)練的分類器定于的分類損失的目標(biāo)函數(shù),得到了較高水平的樣本。該論文中,作者提出了結(jié)合的原則性方法。 在機器學(xué)習(xí)研究領(lǐng)域,生成式對抗網(wǎng)絡(luò)(GAN)在學(xué)習(xí)生成模型方面占據(jù)著統(tǒng)治性的地位,在使用圖像數(shù)據(jù)進行訓(xùn)練的時候,GAN能夠生成視覺上以假亂真的圖像樣本。但是這種靈活的算法也伴隨著優(yōu)化的不穩(wěn)定性,導(dǎo)致模式崩潰(mode colla...
摘要:文本谷歌神經(jīng)機器翻譯去年,谷歌宣布上線的新模型,并詳細介紹了所使用的網(wǎng)絡(luò)架構(gòu)循環(huán)神經(jīng)網(wǎng)絡(luò)。目前唇讀的準確度已經(jīng)超過了人類。在該技術(shù)的發(fā)展過程中,谷歌還給出了新的,它包含了大量的復(fù)雜案例。谷歌收集該數(shù)據(jù)集的目的是教神經(jīng)網(wǎng)絡(luò)畫畫。 1. 文本1.1 谷歌神經(jīng)機器翻譯去年,谷歌宣布上線 Google Translate 的新模型,并詳細介紹了所使用的網(wǎng)絡(luò)架構(gòu)——循環(huán)神經(jīng)網(wǎng)絡(luò)(RNN)。關(guān)鍵結(jié)果:與...
摘要:康納爾大學(xué)數(shù)學(xué)博士博士后則認為,圖神經(jīng)網(wǎng)絡(luò)可能解決圖靈獎得主指出的深度學(xué)習(xí)無法做因果推理的核心問題。圖靈獎得主深度學(xué)習(xí)的因果推理之殤年初,承接有關(guān)深度學(xué)習(xí)煉金術(shù)的辯論,深度學(xué)習(xí)又迎來了一位重要的批評者。 作為行業(yè)的標(biāo)桿,DeepMind的動向一直是AI業(yè)界關(guān)注的熱點。最近,這家世界最較高級的AI實驗室似乎是把他們的重點放在了探索關(guān)系上面,6月份以來,接連發(fā)布了好幾篇帶關(guān)系的論文,比如:關(guān)系歸...
閱讀 660·2021-11-23 09:51
閱讀 3608·2021-11-15 11:38
閱讀 942·2021-10-14 09:42
閱讀 3182·2021-09-29 09:35
閱讀 2122·2021-09-03 10:33
閱讀 778·2021-07-30 16:33
閱讀 1565·2019-08-30 15:55
閱讀 1851·2019-08-30 14:04