摘要:摘要本文主要是講解了機器學習中的增強學習方法的基本原理,常用算法及應用場景,最后給出了學習資源,對于初學者而言可以將其作為入門指南。下圖表示了強化學習模型中涉及的基本思想和要素。
摘要: 本文主要是講解了機器學習中的增強學習方法的基本原理,常用算法及應用場景,最后給出了學習資源,對于初學者而言可以將其作為入門指南。
強化學習(Reinforcement Learning)是當前最熱門的研究課題之一,它在AlphaGo中大放光彩,同時也變得越來越受科研人員的喜愛。本文主要介紹關(guān)于增強學習5件有用的事兒。
1.強化學習是什么?與其它機器學習方法有什么關(guān)系?強化學習是一種機器學習方法,它使Agent能夠在交互式環(huán)境中年通過試驗并根據(jù)自己的行動和經(jīng)驗反饋的錯誤來進行學習。雖然監(jiān)督學習和強化學習都使用輸入和輸出之間的映射關(guān)系,但強化學習與監(jiān)督學習不同,監(jiān)督學習提供給Agent的反饋是執(zhí)行任務的正確行為,而強化學習使用獎勵和懲罰作為積極和消極行為的信號。
與無監(jiān)督學習相比而言,強化學習在目標方面有所不同。雖然無監(jiān)督學習的目標是找出數(shù)據(jù)點之間的相似性和不同性,但是在強化學習中,其目標是找到一個合適的動作模型,能夠最大化Agent的累積獎勵總額。下圖表示了強化學習模型中涉及的基本思想和要素。
圖1 增強學習模型框圖
2.如何創(chuàng)建一個基本的強化學習問題?在介紹本節(jié)內(nèi)容之前,先介紹下增強學習問題中的一些關(guān)鍵術(shù)語:
環(huán)境(Environment):Agent操作的現(xiàn)實世界
狀態(tài)(State):Agent的現(xiàn)狀
獎勵(Reward):來自環(huán)境的反饋
策略(Policy):將Agent的狀態(tài)映射到動作的方法
價值(Value):Agent在特定狀態(tài)下采取行動所得到的報酬
可以通過游戲很好地解釋強化學習問題,以PacMan游戲為例,Agent的目標是在網(wǎng)絡中吃掉食物,同時也要躲避幽靈。網(wǎng)格世界就是Agent的交互環(huán)境,如果PacMan吃掉食物,則獲得獎勵;但如果被幽靈殺死(輸?shù)粲螒颍?,則受到懲罰。PacMan在網(wǎng)格中的位置就是其所處的狀態(tài),達到累積獎勵總額則PacMan贏得比賽。
為了建立一個最優(yōu)策略,Agent需要不斷探索新的狀態(tài),同時最大化其所獲獎勵累積額度,這也被稱作試探和權(quán)衡。
馬爾可夫決策過程(MDPs)是用來描述增強學習環(huán)境的數(shù)學框架,幾乎所有的增強學習問題都可以轉(zhuǎn)化為MDps。MDP由一組有限環(huán)境狀態(tài)S、每個狀態(tài)中存在的一組可能行為A(s)、一個實值獎勵函數(shù)R(s)以及一個轉(zhuǎn)移模型P(s",s|a)組成。然而,現(xiàn)實世界環(huán)境可能更缺乏對動態(tài)環(huán)境的任何先驗知識。在這種情況下,Model-free很有效。Model-free一直在每一步中去嘗試學習最優(yōu)的策略,在多次迭代后就得到了整個環(huán)境最優(yōu)的策略(Q-learning)。
Q-learning是一種常用的模型,能夠用于構(gòu)建自己玩PacMan的Agent,它始終圍繞著更新Q值,Q值表示在狀態(tài)s時執(zhí)行動作a的值,價值更新規(guī)則是Q-learning算法的核心。
圖2 增強學習更新規(guī)則
圖3 PacMan游戲
3.最常用的強化學習算法有哪些?Q-learning和SARSA(State-Action-Reward-State-Action)是兩種常用的model-free強化學習算法。雖然它們的探索策略不同,但是它們的開發(fā)策略卻相似。雖然Q-learning是一種離線(off-policy)學習方法,其中Agent根據(jù)從另一個策略得到的行動a*學習價值,但SARSA是一個在線(on-policy)學習方法,它從目前的策略中獲得當前行動的價值。這兩種方法實施起來很簡單,但缺乏一般性,因為無法估計出不可見狀態(tài)的價值。
但以上問題可以通過更先進的算法來克服,比如使用神經(jīng)網(wǎng)絡估計Q值的Deep Q-Networks(DQN)。但是DQN只能處理離散、低維動作空間,因此對于高維、連續(xù)動作空間,科研人員發(fā)明了一種名為Deep Deterministic Policy Gradient(DDPG)的算法,該算法是一個model-free、離線演員評判家算法(Actor-critic algorithm)。
圖4 Actor-critic algorithm
4.強化學習有哪些實際應用?由于增強學習需要大量的數(shù)據(jù),因此它最適用于模擬數(shù)據(jù)領(lǐng)域,比如游戲、機器人等。
在電腦游戲中,增強學習被廣泛地應用于人工智能的構(gòu)建中。AlphaGo Zero是圍棋界第一個擊敗世界冠軍的計算機程序,類似的還有ATARI游戲、西洋雙陸棋等。
在機器人和工業(yè)自動化領(lǐng)域,增強學習被用于使機器人為其自身創(chuàng)建一個高效的自適應控制系統(tǒng),從而能夠從自己的經(jīng)驗和行為中學習。DeepMind在深度增強學習上的成果也是一個很好的例子。
增強學習的其它應用包括文本摘要引擎、對話代理(文本、語言),它們可以從用戶交互中學習,并隨著時間的推移而不斷改進。此外,對于醫(yī)療保健和在線股票交易而言,基于增強學習的性能也是最佳的。
5.如何開始學習增強學習?以下有一些相關(guān)的學習資源:
1.強化學習第二版(Reinforcement Learning-An Introduction),增強學習之父RicharSutton和其導師Andrew barto所寫的書籍,一本不錯的權(quán)威資料,在線閱讀鏈接:http://incompleteideas.net/bo...
2.教材,David Sliver老師的視頻講座,是一份很好的增強學習入門課程。
3.其它關(guān)于增強學習的技術(shù)教程,由Pieter Abbeel和John Schulman所寫(Open AI/Berkeley人工智能實驗室)
4.從構(gòu)建和測試增強學習agent開始學習之旅
5.該鏈接的博客能夠幫助你使用僅僅130行Python代碼啟動并運行自己的第一個深度增強學習模型
6.DeepMind Lab是公開的一款開源立體游戲平臺,專門為研究通用人工智能和機器學習系統(tǒng)而設計。
7.Project Malmo是微軟公司開源的人工智能項目,也是支持人工智能領(lǐng)域的基礎(chǔ)研究。
8.OpenAI Gym是開發(fā)和比較強化學習算法的工具包。
作者信息
Shweta Bhatt,人工智能研究員,數(shù)據(jù)科學家
詳細內(nèi)容請查看原文
文章版權(quán)歸作者所有,未經(jīng)允許請勿轉(zhuǎn)載,若此文章存在違規(guī)行為,您可以聯(lián)系管理員刪除。
轉(zhuǎn)載請注明本文地址:http://systransis.cn/yun/19703.html
摘要:對于大數(shù)據(jù)而言,數(shù)據(jù)量沒有一定的要求,只要足夠得出可靠的結(jié)論即可。與大數(shù)據(jù)相關(guān)的職業(yè)隨著市場對大數(shù)據(jù)相關(guān)需求的增加,與之相關(guān)的職業(yè)需求數(shù)量也在上升。 摘要: 本文從基本概念、行業(yè)趨勢、學習途徑等幾個方面介紹了大數(shù)據(jù)的相關(guān)內(nèi)容,適合對大數(shù)據(jù)感興趣的讀者作為入門材料閱讀。 隨著科技的發(fā)展,目前已經(jīng)步入了大數(shù)據(jù)的時代,很多社交媒體和互聯(lián)網(wǎng)公司也非常關(guān)注大數(shù)據(jù)這一行業(yè)。那么對于大數(shù)據(jù)而言,這里...
摘要:推薦閱讀資源庫工具應用程序精選列表中文版有哪些鮮為人知,但是很有意思的網(wǎng)站一份攻城獅筆記每天搜集上優(yōu)秀的項目一些有趣的民間故事超好用的谷歌瀏覽器油猴插件合集目錄資源文檔文章圖書會談教程更多庫工具管理數(shù)據(jù)部署桌面發(fā)展監(jiān)控應用資源文檔介紹文檔教 推薦閱讀 MongoDB 資源、庫、工具、應用程序精選列表中文版 有哪些鮮為人知,但是很有意思的網(wǎng)站? 一份攻城獅筆記 每天搜集 Github ...
摘要:一些知識點有哪些方法方法前端從入門菜鳥到實踐老司機所需要的資料與指南合集前端掘金前端從入門菜鳥到實踐老司機所需要的資料與指南合集歸屬于筆者的前端入門與最佳實踐。 工欲善其事必先利其器-前端實習簡歷篇 - 掘金 有幸認識很多在大廠工作的學長,在春招正式開始前為我提供很多內(nèi)部推薦的機會,非常感謝他們對我的幫助?,F(xiàn)在就要去北京了,對第一份正式的實習工作也充滿期待,也希望把自己遇到的一些問題和...
閱讀 1334·2021-11-04 16:11
閱讀 3005·2021-10-12 10:11
閱讀 2926·2021-09-29 09:47
閱讀 1540·2021-09-22 15:40
閱讀 992·2019-08-29 15:43
閱讀 2764·2019-08-29 13:50
閱讀 1553·2019-08-29 13:28
閱讀 2672·2019-08-29 12:54