成人国产在线小视频_日韩寡妇人妻调教在线播放_色成人www永久在线观看_2018国产精品久久_亚洲欧美高清在线30p_亚洲少妇综合一区_黄色在线播放国产_亚洲另类技巧小说校园_国产主播xx日韩_a级毛片在线免费

資訊專欄INFORMATION COLUMN

Twitter 開源增強(qiáng)學(xué)習(xí)框架Torch-twrl ,可與OpenAI 無縫對(duì)接

lijy91 / 3782人閱讀

摘要:棋類游戲和電子游戲通常都會(huì)有定義明確的回饋函數(shù),這使得用增強(qiáng)學(xué)習(xí)算法來直接進(jìn)行優(yōu)化成為可能。增強(qiáng)學(xué)習(xí)算法或智能體的目標(biāo)是通過與任務(wù)或者環(huán)境進(jìn)行互動(dòng),學(xué)會(huì)執(zhí)行復(fù)雜的新穎的任務(wù)。使得增強(qiáng)學(xué)習(xí)算法和環(huán)境的開放與測試變得更加簡便了。

機(jī)器學(xué)習(xí)的進(jìn)步由多個(gè)領(lǐng)域的創(chuàng)新和創(chuàng)意驅(qū)動(dòng)。從人類學(xué)習(xí)事物的方式獲得啟發(fā),增強(qiáng)學(xué)習(xí)(RL)指的是系列算法,能夠通過試錯(cuò)的回饋來進(jìn)行提升,可以進(jìn)一步優(yōu)化未來的表現(xiàn)。

?

棋類游戲和電子游戲通常都會(huì)有定義明確的回饋函數(shù),這使得用增強(qiáng)學(xué)習(xí)算法來直接進(jìn)行優(yōu)化成為可能。然而,隨著算法的不斷進(jìn)步,RL 在解決現(xiàn)實(shí)問題上也可以得到應(yīng)用,比如,高自由度的機(jī)器人控制以及大規(guī)模的推薦任務(wù),這些任務(wù)往往附帶著復(fù)雜的目標(biāo)。

?

Twitter Cortex 采用較先進(jìn)的機(jī)器學(xué)習(xí)方法來提升Twitter的產(chǎn)品質(zhì)量。Twitter正在把增強(qiáng)學(xué)習(xí)當(dāng)成一種學(xué)習(xí)范式來進(jìn)行探索,為了達(dá)到這一目的,Twitter Cortex 開發(fā)了一個(gè)用于發(fā)展增強(qiáng)學(xué)習(xí)的框架。今天,Twitter 正式向全世界開源這一框架——torch-twrl 。

?

增強(qiáng)學(xué)習(xí)算法(或智能體)的目標(biāo)是通過與任務(wù)(或者環(huán)境)進(jìn)行互動(dòng),學(xué)會(huì)執(zhí)行復(fù)雜的、新穎的任務(wù)。為了開發(fā)有效的算法,快速地迭代和測試是至關(guān)重要的,torch-twrl 的目標(biāo)就是讓落實(shí)和創(chuàng)新變得迅速和容易。

?

借鑒其他的增強(qiáng)學(xué)習(xí)框架,torch-twrl ?希望提供:

一個(gè)在Lua/Torch 中的、擁有最小函數(shù)依賴的增強(qiáng)學(xué)習(xí)框架;

定義清晰的、模塊化的代碼帶來的快速開發(fā);

與Open AI 的增強(qiáng)學(xué)習(xí)基準(zhǔn)框架Gym 的無縫對(duì)接。

Gym 提供了對(duì)增強(qiáng)學(xué)習(xí)環(huán)境的深度匯總。torch-twrl ?通過HTTP API 與這些環(huán)境進(jìn)行互動(dòng)。torch-twrl ?提供了一個(gè)簡答且模塊化的方法,讓開發(fā)者可以使用自己已經(jīng)擁有的Torch/Lua 代碼來開始使用增強(qiáng)學(xué)習(xí)進(jìn)行開發(fā)。

如果你想要開始試用 torch-twrl ,你可以在Github 上找到主要的文件包:https://github.com/twitter/torch-twrl。根據(jù)安裝指導(dǎo),你可以隨時(shí)解決 RL 問題。

?torch-twrl 使得增強(qiáng)學(xué)習(xí)算法和環(huán)境的開放與測試變得更加簡便了。以下是如何解決一個(gè)經(jīng)典的增強(qiáng)學(xué)習(xí)控制難題的案例。為了讓你更好地體會(huì)到這有多么簡單,我們采納了一個(gè)簡便的腳本,來運(yùn)行一個(gè)基本的策略梯度智能體,用于解決經(jīng)典的增強(qiáng)學(xué)習(xí)車擺難題。

?

實(shí)驗(yàn)開始前,首先需要設(shè)置你的環(huán)境和智能體實(shí)驗(yàn)參數(shù)。智能體要求有一個(gè)策略、一個(gè)模型和一個(gè)使用相關(guān)參數(shù)的學(xué)習(xí)更新。

以上的實(shí)驗(yàn)結(jié)果來自O(shè)penAI Gym 的排行榜(Leaderboard)。當(dāng)你使用 torch-twrl 運(yùn)行一個(gè)算法,可以選擇自動(dòng)地把結(jié)果上傳到排行榜上,它能自動(dòng)創(chuàng)造一個(gè)好的結(jié)果圖,生成一個(gè)關(guān)于結(jié)果的簡短GIF 圖。

在把你的結(jié)果與其他的方法進(jìn)行對(duì)比時(shí),排行榜也很有價(jià)值。

基本的RL框架中,會(huì)有一個(gè)智能體與環(huán)境進(jìn)行交互,智能體的構(gòu)成是:

模型:智能體模型描繪出行動(dòng)的狀態(tài)

策略:如何選擇活動(dòng)

學(xué)習(xí)更新:模型如何用收到的反饋進(jìn)行更新

Note:許多別的參數(shù)也可以進(jìn)行設(shè)置,具體的參數(shù)包括:策略、學(xué)習(xí)更新、模型、監(jiān)控等,完整的描述參見我們提供的文檔。(https://github.com/twitter/torch-twrl)

我們希望torch-twrl 作為一個(gè)RL 框架可以不斷發(fā)展,與 RLLab 一樣,讓 Torch 和 Lua 上的開發(fā)者進(jìn)行使用。增強(qiáng)學(xué)習(xí)的研究是一個(gè)非常活躍的領(lǐng)域,其中包括了各種各樣的環(huán)境以及對(duì)較先進(jìn)算法的采用。我們正計(jì)劃擴(kuò)大關(guān)于新的 RL 算法的資料庫。

雖然目前基于Torch,已經(jīng)有一些很好的增強(qiáng)學(xué)習(xí)框架,我們想要的是一個(gè)從零開始搭建的框架,可以將外部依賴降到最小,這樣就能更好地解決Twitter的內(nèi)部問題。

歡迎加入本站公開興趣群

商業(yè)智能與數(shù)據(jù)分析群

興趣范圍包括各種讓數(shù)據(jù)產(chǎn)生價(jià)值的辦法,實(shí)際應(yīng)用案例分享與討論,分析工具,ETL工具,數(shù)據(jù)倉庫,數(shù)據(jù)挖掘工具,報(bào)表系統(tǒng)等全方位知識(shí)

QQ群:81035754

文章版權(quán)歸作者所有,未經(jīng)允許請(qǐng)勿轉(zhuǎn)載,若此文章存在違規(guī)行為,您可以聯(lián)系管理員刪除。

轉(zhuǎn)載請(qǐng)注明本文地址:http://systransis.cn/yun/4397.html

相關(guān)文章

  • 15個(gè)Python庫,讓你學(xué)習(xí)數(shù)據(jù)科學(xué)更輕松

    摘要:在本節(jié)中,我們將看到一些最流行和最常用的庫,用于機(jī)器學(xué)習(xí)和深度學(xué)習(xí)是用于數(shù)據(jù)挖掘,分析和機(jī)器學(xué)習(xí)的最流行的庫。愿碼提示網(wǎng)址是一個(gè)基于的框架,用于使用多個(gè)或進(jìn)行有效的機(jī)器學(xué)習(xí)和深度學(xué)習(xí)。 showImg(https://segmentfault.com/img/remote/1460000018961827?w=999&h=562); 來源 | 愿碼(ChainDesk.CN)內(nèi)容編輯...

    W4n9Hu1 評(píng)論0 收藏0
  • 國外程序員整理的Java資源大全

    摘要:日期和時(shí)間處理日期和時(shí)間的函數(shù)庫。使用中可觀察序列,創(chuàng)建異步基于事件應(yīng)用程序的函數(shù)庫。為分布式系統(tǒng)提供延遲和容錯(cuò)處理。發(fā)布使用本機(jī)格式分發(fā)應(yīng)用程序的工具。將程序資源和打包成和的本機(jī)文件。圖像處理用來幫助創(chuàng)建評(píng)估或操作圖形的函數(shù)庫。 好資源要分享原文 譯者 唐尤華 翻譯自 github akullpp 構(gòu)建 這里搜集了用來構(gòu)建應(yīng)用程序的工具。 Apache Maven:Mave...

    chengtao1633 評(píng)論0 收藏0
  • 百度云計(jì)算推出天工智能物聯(lián)網(wǎng)平臺(tái)

    摘要:月日,在風(fēng)云際會(huì)百度云計(jì)算戰(zhàn)略發(fā)布會(huì)上,百度云計(jì)算事業(yè)部總經(jīng)理劉煬正式發(fā)布智能物聯(lián)網(wǎng)平臺(tái)天工。為解決上述問題,百度云計(jì)算推出了天工智能物聯(lián)網(wǎng)平臺(tái),助力行業(yè)跨越鴻溝,實(shí)現(xiàn)產(chǎn)業(yè)升級(jí)。?  《天工開物》是世界上第一部關(guān)于農(nóng)業(yè)和手工業(yè)生產(chǎn)的綜合性著作,強(qiáng)調(diào)人類與自然的協(xié)調(diào)。7月13日,在2016風(fēng)云際會(huì)百度云計(jì)算戰(zhàn)略發(fā)布會(huì)上,百度云計(jì)算事業(yè)部總經(jīng)理劉煬正式發(fā)布智能物聯(lián)網(wǎng)平臺(tái)——天工。秉承天工之理念,...

    smartlion 評(píng)論0 收藏0
  • 阿里云正式推出消息隊(duì)列Kafka:全面融合開源生態(tài)

    摘要:在全面兼容Apache Kafka生態(tài)的基礎(chǔ)上,消息隊(duì)列Kafka徹底解決ApacheKafka穩(wěn)定性不足的長期痛點(diǎn),并且支持消息無縫遷移到云上。 近日,阿里云宣布正式推出消息隊(duì)列Kafka,全面融合開源生態(tài)。在全面兼容Apache Kafka生態(tài)的基礎(chǔ)上,消息隊(duì)列Kafka還具備了超易用,超高可用可靠性,擴(kuò)縮容不操心,全方位安全診斷,數(shù)據(jù)安全有保障的特點(diǎn)。可用行達(dá)99.9%,數(shù)據(jù)可靠行99...

    aisuhua 評(píng)論0 收藏0
  • OpenAI開源TF梯度替換插件,十倍模型計(jì)算時(shí)間僅增加20%

    摘要:訓(xùn)練深度神經(jīng)網(wǎng)絡(luò)需要大量的內(nèi)存,用戶使用這個(gè)工具包,可以在計(jì)算時(shí)間成本僅增加的基礎(chǔ)上,在上運(yùn)行規(guī)模大倍的前饋模型。使用導(dǎo)入此功能,與使用方法相同,使用梯度函數(shù)來計(jì)算參數(shù)的損失梯度。隨后,在反向傳播中重新計(jì)算檢查點(diǎn)之間的節(jié)點(diǎn)。 OpenAI是電動(dòng)汽車制造商特斯拉創(chuàng)始人 Elon Musk和著名的科技孵化器公司 Y Combinator總裁 Sam Altman于 2016年聯(lián)合創(chuàng)立的 AI公司...

    GraphQuery 評(píng)論0 收藏0

發(fā)表評(píng)論

0條評(píng)論

最新活動(dòng)
閱讀需要支付1元查看
<