40張圖看懂撲克AI對抗人類30年歷史，解密冷撲大師前世今生

YuboonaZhang 發(fā)布于2019-04-25 18:18 / 2984人閱讀

摘要：月，卡耐基梅隆大學(xué)的程序在一對一不限注的撲克比賽中，擊敗了一組的德州撲克職業(yè)選手。概述擊敗人類冠軍的三件事的深藍(lán)，由卡內(nèi)基梅隆大學(xué)開飯，在年的復(fù)賽中擊敗國際象棋世界冠軍卡斯帕羅夫。年，奧克蘭大學(xué)發(fā)布。

2017年是AI在撲克上取得突破的一年，在AI的發(fā)展歷史上，具有里程碑的意義。

1月，卡耐基梅隆大學(xué)的 AI 程序在“一對一不限注”的撲克比賽中，擊敗了一組的德州撲克職業(yè)選手。出乎所有人的意外，這一程序?qū)θ祟悓I(yè)撲克手的勝利幾乎是壓倒性的：14bb/h。

（注，德州撲克中，線下按bb/h，超過15bb/h，你已經(jīng)完全統(tǒng)治這個(gè)級別的桌子了，能打到5bb/h-10bb/h已經(jīng)很不錯(cuò)了。線上按bb/100手，超過5bb/100已經(jīng)非常厲害了。）

比賽一共打了12萬手，最后 AI 程序贏得170萬籌碼，也就是約 1.7 萬大盲注，接近 90 個(gè)買入。對職業(yè)撲克玩家來說，還好這不是真正的錢，雖然他們在這場比賽中潰不成軍。團(tuán)隊(duì)里每個(gè)人都敗給了機(jī)器。

這個(gè) AI 程序被稱為 Libratus，它的開發(fā)者之一，CMU 博士生 Noam Brown 稱它是“撲克AI的圣杯”。Libratus 是 Noam Brown 和 CMU 教授 Tuomas Sandholm 一起開發(fā)的，而它只是 CMU 研發(fā)的一系列撲克 AI 程序中的一個(gè)。此前，從來沒有機(jī)器能在一對一不限注德州撲克游戲中擊敗的人類職業(yè)玩家。

卡耐基梅隆大學(xué)的 AI 程序 Libratus 的開發(fā)者Tuomas Sandholm 教授（右）與 Noam Brown 博士

根據(jù) Brown 的說法，后續(xù)版本的 Libratus 還能有很大的提升空間，升級后的程序理論上能贏 50bb/h。

2017 年 11 月 8 日，在北京國家會議中心舉辦的 AI WORLD 2017 世界人工智能大會上，我們特別邀請到“冷撲大師”之父 Tuomas Sandholm 到場，現(xiàn)場揭開“不完全信息”下的智能博弈。

而在驚人的 Libratus 之前，來自加拿大和捷克的幾位計(jì)算機(jī)科學(xué)研究者近日在 arXiv 上貼出論文，介紹了一種用于不完美信息（例如撲克）的新算法，DeepStack 結(jié)合使用循環(huán)推理來處理信息不對稱，使用分解將計(jì)算集中在相關(guān)的決策上，并且使用一種深度學(xué)習(xí)技術(shù)從單人游戲中自動學(xué)習(xí)的有關(guān)撲克任意狀態(tài)的直覺形式。研究者在論文中稱，在一項(xiàng)有數(shù)十名參賽者進(jìn)行的44000手撲克的比賽中，DeepStack 成為第一個(gè)在一對一無限注德州撲克中擊敗職業(yè)撲克玩家的計(jì)算機(jī)程序。

隨后，Science以封面文章的方式，對這一AI 在不完美信息博弈中堪稱里程碑式的突破進(jìn)行了報(bào)道。

撲克網(wǎng)站pokersites.me.uk近日發(fā)布了一篇文章，以信息圖的方式，完整地介紹了人類開發(fā)AI程序以對抗撲克玩家的里程，從1984年開始，我們已經(jīng)在這一方向上探索了30多年，在2017年獲得最值得驕傲的成功。冷撲大師“ Libratus” 和DeepStack 不僅僅意味著在撲克上的突破，更多的是深度學(xué)習(xí)和人工智能綜合性的成就和技術(shù)高度。

下文，我們將從歷史、技術(shù)原理、對戰(zhàn)細(xì)節(jié)、AI 的優(yōu)勢、撲克AI的延伸應(yīng)用以及未來等多個(gè)方面，介紹以撲克為攻克的目標(biāo)的這一人工智能突破路徑。不完美信息博弈上，AI技術(shù)的成熟與應(yīng)用，將會進(jìn)一步擴(kuò)展AI的應(yīng)用邊界，比如，在商業(yè)談判、醫(yī)療健康、網(wǎng)絡(luò)安全、拍賣等等領(lǐng)域得到廣泛應(yīng)用。

對抗人類：機(jī)器的崛起

撲克AI標(biāo)志著AI研究歷史上的又一個(gè)里程碑。

概述：AI擊敗人類冠軍的三件事

IBM的“深藍(lán)”，由卡內(nèi)基梅隆大學(xué)開飯，在1997年的復(fù)賽中擊敗國際象棋世界冠軍卡斯帕羅夫。

谷歌的AlphaGo AI程序擊敗圍棋手李世石。

2011年，IBM的超級計(jì)算機(jī) Watson 在Jeopardy比賽中擊敗兩位世界冠軍。

人類如何認(rèn)知AI：人口統(tǒng)計(jì)數(shù)字

超過55歲的人群，只有35%的人信任AI；

17歲到24歲的人群，信任AI的人比例為62%；

超過50歲的人中，71%的人認(rèn)為，智能虛擬助理將會在未來簡化他們的生活。

撲克中反映的通用問題?

最近10年，驅(qū)動撲克AI研究發(fā)展的力量

阿爾伯塔大學(xué)

卡內(nèi)基梅隆大學(xué)

奧克蘭大學(xué)

撲克AI背后的科學(xué)家：

Noam Brown，卡內(nèi)基梅隆大學(xué)

Tuomas Sandholm，卡內(nèi)基梅隆大學(xué)

Michael Bowling，阿爾伯塔大學(xué)

撲克AI的歷史，關(guān)鍵時(shí)刻

1. 1984年，Mike Caro 創(chuàng)建的基礎(chǔ)撲克AI軟件Orac參加了WSOP的比賽。

注：世界撲克大賽（World Series of Poker，簡稱WSOP）是世界上具有重要影響力的撲克錦標(biāo)賽，每年在美國拉斯維加斯舉辦。此項(xiàng)賽事的起源可以追溯到1970年，當(dāng)時(shí)奔尼·比尼恩（Benny Binion）邀請了六位知名撲克選手在馬蹄鐵賭場（Binion"s Horseshoe Casino）舉辦了第一屆比賽，當(dāng)時(shí)的冠軍是由投票選出的。（來源：維基百科）

2. 1997年，阿爾伯塔大學(xué)（UoA）發(fā)布了撲克AI Loki，專攻有限下注的德州撲克比賽。

3. 2003年，撲克AI開發(fā)者開始從國際象棋方法論的模型中轉(zhuǎn)移，尋找新的辦法。

4. 2005年，在Golden Palace舉辦了撲克機(jī)器人世界系列賽。

5. 2006年，年度計(jì)算機(jī)撲克競賽（ACPC）開始舉辦。

6. 2008年，UoA的撲克機(jī)器人Polaris 6位人類玩家進(jìn)行了一對一的無限下注競賽，成績?yōu)?勝2負(fù)一平。

7. 2009年，奧克蘭大學(xué)發(fā)布 Sartres 。

8. 2012年，拉斯維加斯Bellagio 賭場啟動了2/4美元有限下注的機(jī)器人，每個(gè)人都能嘗試與之進(jìn)行對抗。

9.2015年，有限下注的比賽以及被阿爾伯塔大學(xué)的撲克機(jī)器人Cepheus攻克。

10. 2016年，在ACPC上出現(xiàn)了兩個(gè)較高級的AI：1）前谷歌工程師Eric Jackson 開發(fā)的Slumbot，在WSOP上大賺一筆；2）CMU 博士生開發(fā)的“Act1”數(shù)年來在線上撲克對戰(zhàn)中保持常勝。

11. 2017年，阿爾伯塔大學(xué)開發(fā)的DeepStack擊敗了撲克專業(yè)玩家。同時(shí)，來自CMU的神秘AI也完勝較好的人類撲克玩家。

解密冷撲大師Libratus：成功騙過較佳撲克專業(yè)玩家的撲克AI

Libratus 基于匹茲堡超級計(jì)算中心1500萬小時(shí)核心計(jì)算制定自己的撲克策略。

匹茲堡超級計(jì)算中心的超級計(jì)算機(jī)“嫁接”資源

比一般的現(xiàn)代桌面計(jì)算機(jī)快30000倍

RAM達(dá)到274 TeraBytes

成本：965萬美元

撲克游戲的特征

在有限下注的對抗中，一共包含了31600萬億個(gè)不同的游戲狀態(tài)。

無限下注的對抗所包含的獨(dú)特的情景數(shù)量比宇宙中原子的數(shù)量還多。

以每秒一次的頻率，一個(gè)人需要100億年的時(shí)間，才能嘗試完所有的有限下注狀態(tài)。

Libratus的策略：

Libratus依賴于一個(gè)算法來計(jì)算策略，而非修正已經(jīng)被寫入程序的策略。

Libratus每天都在分析自己的下法，并修正錯(cuò)誤，每天都在進(jìn)行不同的對戰(zhàn)。

Libratus會將自己的行動隨機(jī)化，讓對手不能確定自己是不是在bluffing。

Libratus的算法不是專用于撲克的，還能夠應(yīng)用到任何的不完美信息情景中。

Libratus三大模塊。Libratus有三大模塊，每一個(gè)都在執(zhí)行不同的任務(wù)：

1. 學(xué)習(xí)撲克游戲規(guī)則，嘗試找到能解決每一個(gè)場景的對應(yīng)不同策略；

2. 在每一手牌中，為每一次行動進(jìn)行決策；

3. 持續(xù)地更新，對進(jìn)入到系統(tǒng)中的每一個(gè)新信息進(jìn)行記錄和存檔。

冷撲與其他AI的不同之處

Libratus：沒有深度神經(jīng)網(wǎng)絡(luò)，從頭開始學(xué)習(xí)規(guī)則，所運(yùn)用的策略完全獨(dú)立于人類玩家。

其他AI：有深度神經(jīng)網(wǎng)絡(luò)，對舊的玩法進(jìn)行分享以學(xué)習(xí)規(guī)則，所運(yùn)用的策略不獨(dú)立于人類玩家。

過渡時(shí)期，無限下注德州撲克的解決也不遠(yuǎn)了

人腦 VS AI

Claudico?

2015年，Tuomas Sandholm和CMU的同事發(fā)布了一個(gè)超級智能的撲克AI Claudico，用于無限注的撲克對抗。

四名較好的玩家：Doug Polk，Bjorn Li，Dong Kim 和 Jason Les 在Rivers 賭場完成了與Claudico的對抗。

在為期13天的比賽中，一共進(jìn)行了8萬手的比賽，下注的虛擬貨幣數(shù)量總額為1.7億美元。

四名玩家一起擊敗了Claudico，贏了732713美元。

2017年，UoA發(fā)布了DeepStack，專攻無限下注的德州撲克。DeepStack采用了深度神經(jīng)網(wǎng)絡(luò)，來模仿人類在圍棋游戲中的“直覺”和學(xué)習(xí)能力。DeepStack將游戲的場景“壓縮”到10的14次方，由此一來，兩個(gè)玩家的對抗產(chǎn)生的可能的游戲場景就是10的160次方。

結(jié)果：整個(gè)研究涉及了幾十名參與者，包含了44萬手撲克。DeepStack的平均獲勝率是450 mbb/g，在專業(yè)撲克玩家中，50 mbb/g的贏率就可以稱得上是優(yōu)秀了。與DeepStack對戰(zhàn)的都是優(yōu)秀的玩家，但是，它還沒有與較高級玩家過招。