關(guān)于增強學習你應該了解的五件事兒

huangjinnan 發(fā)布于2019-06-26 18:21 / 1302人閱讀

摘要：摘要本文主要是講解了機器學習中的增強學習方法的基本原理，常用算法及應用場景，最后給出了學習資源，對于初學者而言可以將其作為入門指南。下圖表示了強化學習模型中涉及的基本思想和要素。

摘要：本文主要是講解了機器學習中的增強學習方法的基本原理，常用算法及應用場景，最后給出了學習資源，對于初學者而言可以將其作為入門指南。

強化學習（Reinforcement Learning）是當前最熱門的研究課題之一，它在AlphaGo中大放光彩，同時也變得越來越受科研人員的喜愛。本文主要介紹關(guān)于增強學習5件有用的事兒。

1.強化學習是什么？與其它機器學習方法有什么關(guān)系？

強化學習是一種機器學習方法，它使Agent能夠在交互式環(huán)境中年通過試驗并根據(jù)自己的行動和經(jīng)驗反饋的錯誤來進行學習。雖然監(jiān)督學習和強化學習都使用輸入和輸出之間的映射關(guān)系，但強化學習與監(jiān)督學習不同，監(jiān)督學習提供給Agent的反饋是執(zhí)行任務的正確行為，而強化學習使用獎勵和懲罰作為積極和消極行為的信號。

與無監(jiān)督學習相比而言，強化學習在目標方面有所不同。雖然無監(jiān)督學習的目標是找出數(shù)據(jù)點之間的相似性和不同性，但是在強化學習中，其目標是找到一個合適的動作模型，能夠最大化Agent的累積獎勵總額。下圖表示了強化學習模型中涉及的基本思想和要素。

圖1 增強學習模型框圖

2.如何創(chuàng)建一個基本的強化學習問題？

在介紹本節(jié)內(nèi)容之前，先介紹下增強學習問題中的一些關(guān)鍵術(shù)語：

環(huán)境（Environment）：Agent操作的現(xiàn)實世界

狀態(tài)（State）：Agent的現(xiàn)狀

獎勵（Reward）：來自環(huán)境的反饋

策略（Policy）：將Agent的狀態(tài)映射到動作的方法

價值（Value）：Agent在特定狀態(tài)下采取行動所得到的報酬

可以通過游戲很好地解釋強化學習問題，以PacMan游戲為例，Agent的目標是在網(wǎng)絡中吃掉食物，同時也要躲避幽靈。網(wǎng)格世界就是Agent的交互環(huán)境，如果PacMan吃掉食物，則獲得獎勵；但如果被幽靈殺死（輸?shù)粲螒颍?，則受到懲罰。PacMan在網(wǎng)格中的位置就是其所處的狀態(tài)，達到累積獎勵總額則PacMan贏得比賽。

為了建立一個最優(yōu)策略，Agent需要不斷探索新的狀態(tài)，同時最大化其所獲獎勵累積額度，這也被稱作試探和權(quán)衡。

馬爾可夫決策過程（MDPs）是用來描述增強學習環(huán)境的數(shù)學框架，幾乎所有的增強學習問題都可以轉(zhuǎn)化為MDps。MDP由一組有限環(huán)境狀態(tài)S、每個狀態(tài)中存在的一組可能行為A(s)、一個實值獎勵函數(shù)R(s)以及一個轉(zhuǎn)移模型P(s",s|a)組成。然而，現(xiàn)實世界環(huán)境可能更缺乏對動態(tài)環(huán)境的任何先驗知識。在這種情況下，Model-free很有效。Model-free一直在每一步中去嘗試學習最優(yōu)的策略，在多次迭代后就得到了整個環(huán)境最優(yōu)的策略（Q-learning）。

Q-learning是一種常用的模型，能夠用于構(gòu)建自己玩PacMan的Agent，它始終圍繞著更新Q值，Q值表示在狀態(tài)s時執(zhí)行動作a的值，價值更新規(guī)則是Q-learning算法的核心。

圖2 增強學習更新規(guī)則

圖3 PacMan游戲

3.最常用的強化學習算法有哪些？

Q-learning和SARSA（State-Action-Reward-State-Action）是兩種常用的model-free強化學習算法。雖然它們的探索策略不同，但是它們的開發(fā)策略卻相似。雖然Q-learning是一種離線（off-policy）學習方法，其中Agent根據(jù)從另一個策略得到的行動a*學習價值，但SARSA是一個在線（on-policy）學習方法，它從目前的策略中獲得當前行動的價值。這兩種方法實施起來很簡單，但缺乏一般性，因為無法估計出不可見狀態(tài)的價值。

但以上問題可以通過更先進的算法來克服，比如使用神經(jīng)網(wǎng)絡估計Q值的Deep Q-Networks（DQN）。但是DQN只能處理離散、低維動作空間，因此對于高維、連續(xù)動作空間，科研人員發(fā)明了一種名為Deep Deterministic Policy Gradient（DDPG）的算法，該算法是一個model-free、離線演員評判家算法（Actor-critic algorithm）。

圖4 Actor-critic algorithm

4.強化學習有哪些實際應用？

由于增強學習需要大量的數(shù)據(jù)，因此它最適用于模擬數(shù)據(jù)領(lǐng)域，比如游戲、機器人等。

在電腦游戲中，增強學習被廣泛地應用于人工智能的構(gòu)建中。AlphaGo Zero是圍棋界第一個擊敗世界冠軍的計算機程序，類似的還有ATARI游戲、西洋雙陸棋等。

在機器人和工業(yè)自動化領(lǐng)域，增強學習被用于使機器人為其自身創(chuàng)建一個高效的自適應控制系統(tǒng)，從而能夠從自己的經(jīng)驗和行為中學習。DeepMind在深度增強學習上的成果也是一個很好的例子。

增強學習的其它應用包括文本摘要引擎、對話代理（文本、語言），它們可以從用戶交互中學習，并隨著時間的推移而不斷改進。此外，對于醫(yī)療保健和在線股票交易而言，基于增強學習的性能也是最佳的。

5.如何開始學習增強學習？

以下有一些相關(guān)的學習資源：

1.強化學習第二版（Reinforcement Learning-An Introduction），增強學習之父RicharSutton和其導師Andrew barto所寫的書籍，一本不錯的權(quán)威資料，在線閱讀鏈接：http://incompleteideas.net/bo...

2.教材，David Sliver老師的視頻講座，是一份很好的增強學習入門課程。

3.其它關(guān)于增強學習的技術(shù)教程，由Pieter Abbeel和John Schulman所寫（Open AI/Berkeley人工智能實驗室）

4.從構(gòu)建和測試增強學習agent開始學習之旅

5.該鏈接的博客能夠幫助你使用僅僅130行Python代碼啟動并運行自己的第一個深度增強學習模型

6.DeepMind Lab是公開的一款開源立體游戲平臺，專門為研究通用人工智能和機器學習系統(tǒng)而設計。

7.Project Malmo是微軟公司開源的人工智能項目，也是支持人工智能領(lǐng)域的基礎(chǔ)研究。

8.OpenAI Gym是開發(fā)和比較強化學習算法的工具包。

作者信息

Shweta Bhatt，人工智能研究員，數(shù)據(jù)科學家

詳細內(nèi)容請查看原文

GPU云服務器云服務器你應該知道說說你所了解的人工智能外呼系統(tǒng)阿里云服務器你了解了嗎深度學習的五個深度

文章版權(quán)歸作者所有，未經(jīng)允許請勿轉(zhuǎn)載,若此文章存在違規(guī)行為，您可以聯(lián)系管理員刪除。

轉(zhuǎn)載請注明本文地址：http://systransis.cn/yun/19703.html

發(fā)表評論

登陸后可評論

0條評論

huangjinnan

男|高級講師

我要關(guān)注我要私信

TA的文章

CMIVPS：VPS主機月付8折年付7折,香港大帶寬/直連線路月付5.6美元起

閱讀 1334·2021-11-04 16:11
基于SSM福來客棧民宿預約管理系統(tǒng)

閱讀 3005·2021-10-12 10:11
NCCK：香港CN2服務器,雙E5-處理器;24核/32G內(nèi)存/10M無限流量/CN2GIA,五折$

閱讀 2926·2021-09-29 09:47
如何登錄云主機-怎么登錄云主機？

閱讀 1540·2021-09-22 15:40
前端每日實戰(zhàn)：52# 視頻演示如何用純 CSS 創(chuàng)作一個小球繞著圓環(huán)盤旋的動畫

閱讀 992·2019-08-29 15:43
關(guān)于Angular樣式封裝

閱讀 2764·2019-08-29 13:50
css3 實現(xiàn)一個k歌效果和一個進度條的效果

閱讀 1553·2019-08-29 13:28
案例 - 收藏集 - 掘金

閱讀 2672·2019-08-29 12:54

成人国产在线小视频_日韩寡妇人妻调教在线播放_色成人www永久在线观看_2018国产精品久久_亚洲欧美高清在线30p_亚洲少妇综合一区_黄色在线播放国产_亚洲另类技巧小说校园_国产主播xx日韩_a级毛片在线免费

資訊專欄INFORMATION COLUMN

上云采購季！| 2核2G4M爆款云服務器低至59元/年，更有多臺、長期優(yōu)惠，快來選購！

關(guān)于增強學習你應該了解的五件事兒

相關(guān)文章

關(guān)于大數(shù)據(jù)你應該了解的五件事兒

MongoDB 資源、庫、工具、應用程序精選列表中文版

前端開發(fā)-從入門到Offer - 收藏集 - 掘金

背包問題學習筆記

發(fā)表評論

0條評論

huangjinnan

男|高級講師

TA的文章

CMIVPS：VPS主機月付8折年付7折,香港大帶寬/直連線路月付5.6美元起

基于SSM福來客棧民宿預約管理系統(tǒng)

NCCK：香港CN2服務器,雙E5-處理器;24核/32G內(nèi)存/10M無限流量/CN2GIA,五折$

如何登錄云主機-怎么登錄云主機？

前端每日實戰(zhàn)：52# 視頻演示如何用純 CSS 創(chuàng)作一個小球繞著圓環(huán)盤旋的動畫

關(guān)于Angular樣式封裝

css3 實現(xiàn)一個k歌效果和一個進度條的效果

案例 - 收藏集 - 掘金

最新活動

資訊專欄INFORMATION COLUMN

上云采購季！| 2核2G4M爆款云服務器低至59元/年，更有多臺、長期優(yōu)惠，快來選購！

關(guān)于增強學習你應該了解的五件事兒

相關(guān)文章

發(fā)表評論

0條評論

男|高級講師

TA的文章

最新活動

上云采購季！| 2核2G4M爆款云服務器低至59元/年，更有多臺、長期優(yōu)惠，快來選購！