AI再躍進 比AIphaGo更猛 Pluribus完勝德州撲克

2019-07-13
来源:香港商报

  Pluribus在六人桌德州撲克比賽中擊敗一眾世界頂尖選手。網絡圖片

  【香港商報网訊】美國卡內基梅隆大學當地時間11日宣布,該校和fb合作開發的AI Pluribus在六人桌德州撲克比賽中擊敗一眾世界頂尖選手,成為機器在多人遊戲中戰勝人類的一個里程碑。此前,谷歌的AIphaGo戰勝人類棋手早已聞名於世,其升級版AIphaGo Zero更是通過純強化學習實現自我進化,僅用40天便將上兩代AIphaGo秒殺,甚至走出了人類根本不知曉的棋法。

  擊敗一眾人類頂尖選手

  美國《科學》雜誌11日在線發表的相關論文顯示,Pluribus與13名德州撲克高手進行了1萬手不限注對局的六人桌比賽,每次比賽中由機器對5名人類選手,結果機器取得勝利。在另外一種形式的六人桌比賽中,由5個Pluribus與1名人類選手對局,結果機器分別在5000手對局中先後擊敗了德州撲克世界冠軍伊萊亞斯和弗格森。

  更接近真實世界問題決策

  在比賽中,Pluribus會讓自己變得難以預測。例如常規打法是在牌最好的時候押注,但這很快會被對手識破,因此Pluribus會不按常理出牌。分析顯示,Pluribus會做出一些多數人類玩家都認為不好的決策,這在客觀上也迷惑了對手。

  研究人員指出,這次勝利是AI研究的重要里程碑。與讓機器下國際象棋和圍棋相比,德州撲克的挑戰更大。德州撲克比賽中每方都不知道對手的牌,對手還可能在押注時虛張聲勢,因此決策只能基於不完全信息,這與真實世界中的問題更接近。

  卡內基梅隆大學教授桑德霍爾姆說,此前AI在「戰略性推理」方面取得的成就僅限於二人遊戲,此次在複雜遊戲中戰勝5名人類選手,將為AI解決真實世界問題提供新的可能性。

  據介紹,在二人遊戲中,機器的策略是實現博弈論中的「納什均衡」,即確保結果至少是平局,而只要對手犯錯打破均衡機器就能獲勝。但這一策略不適用於多人遊戲,因此機器不能保平,必須不斷爭取先手才能最終獲勝。研究人員為此設計了一種新的「有限前瞻搜索」算法,讓機器能做出一個平衡的整體決策。

  2017年,卡內基梅隆大學開發的AILibratus曾在12萬手一對一不限注德州撲克比賽中分別戰勝4名人類選手。

[责任编辑:肖靜文]
网友评论
相关新闻