Twitter 開源增強(qiáng)學(xué)習(xí)框架Torch-twrl ，可與OpenAI 無縫對(duì)接

lijy91 發(fā)布于2019-04-25 18:04 / 3782人閱讀

摘要：棋類游戲和電子游戲通常都會(huì)有定義明確的回饋函數(shù)，這使得用增強(qiáng)學(xué)習(xí)算法來直接進(jìn)行優(yōu)化成為可能。增強(qiáng)學(xué)習(xí)算法或智能體的目標(biāo)是通過與任務(wù)或者環(huán)境進(jìn)行互動(dòng)，學(xué)會(huì)執(zhí)行復(fù)雜的新穎的任務(wù)。使得增強(qiáng)學(xué)習(xí)算法和環(huán)境的開放與測試變得更加簡便了。

機(jī)器學(xué)習(xí)的進(jìn)步由多個(gè)領(lǐng)域的創(chuàng)新和創(chuàng)意驅(qū)動(dòng)。從人類學(xué)習(xí)事物的方式獲得啟發(fā)，增強(qiáng)學(xué)習(xí)（RL）指的是系列算法，能夠通過試錯(cuò)的回饋來進(jìn)行提升，可以進(jìn)一步優(yōu)化未來的表現(xiàn)。

棋類游戲和電子游戲通常都會(huì)有定義明確的回饋函數(shù)，這使得用增強(qiáng)學(xué)習(xí)算法來直接進(jìn)行優(yōu)化成為可能。然而，隨著算法的不斷進(jìn)步，RL 在解決現(xiàn)實(shí)問題上也可以得到應(yīng)用，比如，高自由度的機(jī)器人控制以及大規(guī)模的推薦任務(wù)，這些任務(wù)往往附帶著復(fù)雜的目標(biāo)。

Twitter Cortex 采用較先進(jìn)的機(jī)器學(xué)習(xí)方法來提升Twitter的產(chǎn)品質(zhì)量。Twitter正在把增強(qiáng)學(xué)習(xí)當(dāng)成一種學(xué)習(xí)范式來進(jìn)行探索，為了達(dá)到這一目的，Twitter Cortex 開發(fā)了一個(gè)用于發(fā)展增強(qiáng)學(xué)習(xí)的框架。今天，Twitter 正式向全世界開源這一框架——torch-twrl 。

增強(qiáng)學(xué)習(xí)算法（或智能體）的目標(biāo)是通過與任務(wù)（或者環(huán)境）進(jìn)行互動(dòng)，學(xué)會(huì)執(zhí)行復(fù)雜的、新穎的任務(wù)。為了開發(fā)有效的算法，快速地迭代和測試是至關(guān)重要的，torch-twrl 的目標(biāo)就是讓落實(shí)和創(chuàng)新變得迅速和容易。

借鑒其他的增強(qiáng)學(xué)習(xí)框架，torch-twrl ?希望提供：

一個(gè)在Lua/Torch 中的、擁有最小函數(shù)依賴的增強(qiáng)學(xué)習(xí)框架；

定義清晰的、模塊化的代碼帶來的快速開發(fā)；

與Open AI 的增強(qiáng)學(xué)習(xí)基準(zhǔn)框架Gym 的無縫對(duì)接。

Gym 提供了對(duì)增強(qiáng)學(xué)習(xí)環(huán)境的深度匯總。torch-twrl ?通過HTTP API 與這些環(huán)境進(jìn)行互動(dòng)。torch-twrl ?提供了一個(gè)簡答且模塊化的方法，讓開發(fā)者可以使用自己已經(jīng)擁有的Torch/Lua 代碼來開始使用增強(qiáng)學(xué)習(xí)進(jìn)行開發(fā)。

如果你想要開始試用 torch-twrl ，你可以在Github 上找到主要的文件包：https://github.com/twitter/torch-twrl。根據(jù)安裝指導(dǎo)，你可以隨時(shí)解決 RL 問題。

?torch-twrl 使得增強(qiáng)學(xué)習(xí)算法和環(huán)境的開放與測試變得更加簡便了。以下是如何解決一個(gè)經(jīng)典的增強(qiáng)學(xué)習(xí)控制難題的案例。為了讓你更好地體會(huì)到這有多么簡單，我們采納了一個(gè)簡便的腳本，來運(yùn)行一個(gè)基本的策略梯度智能體，用于解決經(jīng)典的增強(qiáng)學(xué)習(xí)車擺難題。

實(shí)驗(yàn)開始前，首先需要設(shè)置你的環(huán)境和智能體實(shí)驗(yàn)參數(shù)。智能體要求有一個(gè)策略、一個(gè)模型和一個(gè)使用相關(guān)參數(shù)的學(xué)習(xí)更新。

以上的實(shí)驗(yàn)結(jié)果來自O(shè)penAI Gym 的排行榜（Leaderboard）。當(dāng)你使用 torch-twrl 運(yùn)行一個(gè)算法，可以選擇自動(dòng)地把結(jié)果上傳到排行榜上，它能自動(dòng)創(chuàng)造一個(gè)好的結(jié)果圖，生成一個(gè)關(guān)于結(jié)果的簡短GIF 圖。

在把你的結(jié)果與其他的方法進(jìn)行對(duì)比時(shí)，排行榜也很有價(jià)值。

基本的RL框架中，會(huì)有一個(gè)智能體與環(huán)境進(jìn)行交互，智能體的構(gòu)成是：

模型：智能體模型描繪出行動(dòng)的狀態(tài)

策略：如何選擇活動(dòng)

學(xué)習(xí)更新：模型如何用收到的反饋進(jìn)行更新

Note：許多別的參數(shù)也可以進(jìn)行設(shè)置，具體的參數(shù)包括：策略、學(xué)習(xí)更新、模型、監(jiān)控等，完整的描述參見我們提供的文檔。（https://github.com/twitter/torch-twrl）

我們希望torch-twrl 作為一個(gè)RL 框架可以不斷發(fā)展，與 RLLab 一樣，讓 Torch 和 Lua 上的開發(fā)者進(jìn)行使用。增強(qiáng)學(xué)習(xí)的研究是一個(gè)非常活躍的領(lǐng)域，其中包括了各種各樣的環(huán)境以及對(duì)較先進(jìn)算法的采用。我們正計(jì)劃擴(kuò)大關(guān)于新的 RL 算法的資料庫。

雖然目前基于Torch，已經(jīng)有一些很好的增強(qiáng)學(xué)習(xí)框架，我們想要的是一個(gè)從零開始搭建的框架，可以將外部依賴降到最小，這樣就能更好地解決Twitter的內(nèi)部問題。

歡迎加入本站公開興趣群

商業(yè)智能與數(shù)據(jù)分析群

興趣范圍包括各種讓數(shù)據(jù)產(chǎn)生價(jià)值的辦法，實(shí)際應(yīng)用案例分享與討論，分析工具，ETL工具，數(shù)據(jù)倉庫，數(shù)據(jù)挖掘工具，報(bào)表系統(tǒng)等全方位知識(shí)

QQ群：81035754

GPU云服務(wù)器云服務(wù)器開源框架深度學(xué)習(xí)增強(qiáng)學(xué)習(xí) 增強(qiáng)學(xué)習(xí)深度學(xué)習(xí) 開源論壇框架

文章版權(quán)歸作者所有，未經(jīng)允許請(qǐng)勿轉(zhuǎn)載,若此文章存在違規(guī)行為，您可以聯(lián)系管理員刪除。

轉(zhuǎn)載請(qǐng)注明本文地址：http://systransis.cn/yun/4397.html

發(fā)表評(píng)論

登陸后可評(píng)論

0條評(píng)論

lijy91

男|高級(jí)講師

我要關(guān)注我要私信

TA的文章

Dmit，全新日本Pro VPS 8折，100M大帶寬，CN2 GIA/10099(9929)/CM

閱讀 3158·2021-11-10 11:36
實(shí)戰(zhàn)！《長津湖》為什么這么火爆？我用 Python 來分析貓眼影評(píng)

閱讀 3350·2021-10-13 09:40
Arduino開發(fā)-TFT_eSPI庫學(xué)習(xí)

閱讀 6273·2021-09-26 09:46
天天都在使用CSS，那么CSS的原理是什么呢？

閱讀 689·2019-08-30 15:55
Codepen 每日精選（2018-4-10）

閱讀 1437·2019-08-30 15:53
CSS網(wǎng)格布局基礎(chǔ)

閱讀 1613·2019-08-29 13:55
純CSS的星級(jí)評(píng)價(jià)效果

閱讀 3022·2019-08-29 12:46
CSS題目及答案整理

閱讀 3246·2019-08-29 12:34

成人国产在线小视频_日韩寡妇人妻调教在线播放_色成人www永久在线观看_2018国产精品久久_亚洲欧美高清在线30p_亚洲少妇综合一区_黄色在线播放国产_亚洲另类技巧小说校园_国产主播xx日韩_a级毛片在线免费

資訊專欄INFORMATION COLUMN

上云采購季！| 2核2G4M爆款云服務(wù)器低至59元/年，更有多臺(tái)、長期優(yōu)惠，快來選購！

Twitter 開源增強(qiáng)學(xué)習(xí)框架Torch-twrl ，可與OpenAI 無縫對(duì)接

相關(guān)文章

**15個(gè)Python庫，讓你學(xué)習(xí)數(shù)據(jù)科學(xué)更輕松**

國外程序員整理的Java資源大全

百度云計(jì)算推出天工智能物聯(lián)網(wǎng)平臺(tái)

阿里云正式推出消息隊(duì)列Kafka：全面融合開源生態(tài)

OpenAI開源TF梯度替換插件，十倍模型計(jì)算時(shí)間僅增加20%

發(fā)表評(píng)論

0條評(píng)論

lijy91

男|高級(jí)講師

TA的文章

Dmit，全新日本Pro VPS 8折，100M大帶寬，CN2 GIA/10099(9929)/CM

實(shí)戰(zhàn)！《長津湖》為什么這么火爆？我用 Python 來分析貓眼影評(píng)

Arduino開發(fā)-TFT_eSPI庫學(xué)習(xí)

天天都在使用CSS，那么CSS的原理是什么呢？

Codepen 每日精選（2018-4-10）

CSS網(wǎng)格布局基礎(chǔ)

純CSS的星級(jí)評(píng)價(jià)效果

CSS題目及答案整理

最新活動(dòng)

資訊專欄INFORMATION COLUMN

上云采購季！| 2核2G4M爆款云服務(wù)器低至59元/年，更有多臺(tái)、長期優(yōu)惠，快來選購！

Twitter 開源增強(qiáng)學(xué)習(xí)框架Torch-twrl ，可與OpenAI 無縫對(duì)接

相關(guān)文章

發(fā)表評(píng)論

0條評(píng)論

男|高級(jí)講師

TA的文章

最新活動(dòng)

上云采購季！| 2核2G4M爆款云服務(wù)器低至59元/年，更有多臺(tái)、長期優(yōu)惠，快來選購！