AlphaGo之父Demis Hassabis
曆史悠久的圍棋已經流傳了近3000年,但人類一直低估了一點:以第五條線為代表的棋局中部區域。
這是AlphaGo之父、DeepMind創始人Demis Hassabis向外界分享AlphaGo背後故事時透露的重要信息。
自從去年3月首爾那場載入史冊的比賽以來,AlphaGo超越人類棋手固有思維和套路的招法,對圍棋界的沖擊史無前例。用Demis Hassabis 的話說,“就像人們利用哈勃望遠鏡發現新的宇宙空間一樣。AlphaGo就是圍棋界的‘哈勃天文望遠鏡’。”
5月24日,DeepMind創始人Demis Hassabis以及AlphaGo團隊負責人David Silver一起對外詳解了AlphaGo背後的研發故事,以及AlphaGo究竟意味著什么?
“AlphaGo已經展示出了創造力,在某一個領域它甚至已經可以模仿人類直覺了。” Demis Hassabis說,在未來能看到人機合作的巨大力量,人類智慧將通過人工智能進一步放大。“強人工智能是人類研究和探尋宇宙的終極工具。”
圍棋難在哪兒?
曆史上,電腦最早掌握的第一款經典遊戲是井字遊戲,這是1952年一位博士在讀生的研究項目;隨後是1994年電腦程序Chinook成功挑戰西洋跳棋遊戲;3年後,IBM深藍超級計算機在國際象棋比賽中戰勝世界冠軍加裏·卡斯帕羅夫。
相比之下,圍棋看似規則簡單,複雜性卻是難以想象的。它一共有10的170次方 種可能性,這個數字比整個宇宙中的原子數10的80次方都多,沒有辦法窮舉出圍棋所有可能的結果。
可以對比的是,國際象棋有著巨大的數據庫,如果棋盤上少於9個棋子的時候,通過數學算法就可以計算出誰勝誰敗;如果棋盤上少於九個棋子的時候,下象棋時人類是沒有辦法獲勝的。可以說,國際象棋的算法已經近乎極致。
在Demis Hassabis看來,更困難的是圍棋不像象棋等遊戲靠計算,而是靠直覺。“圍棋中沒有等級概念,所有棋子都一樣,圍棋是築防遊戲,因此需要盤算未來。你在下棋的過程中,是棋盤在心中,必須要預測未來。小小一個棋子可撼動全局,牽一發動全身。圍棋'妙手'如受天啟。”哈薩比斯如此解釋道。
第一位與AlphaGo對陣的人類職業棋手樊麾對記者感慨,“曾經以為計算機打敗職業棋手,一輩子都不會看到,沒想到這么快就實現了。”
對 AlphaGo 團隊來說,是時候尋找一種更聰明的方法來解開圍棋謎題了。
如何訓練AlphaGo?
AlphaGo系統的關鍵是,將圍棋巨大無比的搜索空間壓縮到可控的范圍之內。
為了應對圍棋的巨大複雜性,AlphaGo 采用了一種新穎的機器學習技術,結合了監督學習和強化學習的優勢。
具體而言,首先是通過訓練形成一個策略網絡(policy network),將棋盤上的局勢作為輸入信息,並對所有可行的落子位置生成一個概率分布。然後,訓練出一個價值網絡(value network)對自我對弈進行預測,以 -1(對手的絕對勝利)到1(AlphaGo的絕對勝利)的標准,預測所有可行落子位置的結果。
這兩個網絡自身都十分強大,而 AlphaGo將這兩種網絡整合進基於概率的蒙特卡羅樹搜索(MCTS)中,實現了它真正的優勢。最後,新版的AlphaGo 產生大量自我對弈棋局,為下一代版本提供了訓練數據,此過程循環往複。
AlphaGo 如何決定落子?
在獲取棋局信息後,AlphaGo 會根據策略網絡探索哪個位置同時具備高潛在價值和高可能性,進而決定最佳落子位置。
在分配的搜索時間結束時,模擬過程中被系統最頻繁考察的位置將成為 AlphaGo 的最終選擇。在經過先期的全盤探索和過程中對最佳落子的不斷揣摩後,AlphaGo的搜索算法就能在其計算能力之上加入近似人類的直覺判斷。
Demis Hassabis表示,阿爾法狗不只是模仿其他人類選手的下法,而且在不斷創新。
例如,在與李世石第二局裏對弈第37步,這一步是Demis 在整個比賽中感到最震驚的一步。
Demis解釋道:在圍棋中有兩條至關重要的分界線,從右數第三根線。如果在第三根線上移動棋子,意味著你將占領該線右邊的領域。而如果是在第四根線上落子,意味著你計劃向棋盤中部進軍,潛在的,未來你會占棋盤上其他部分的領域,可能和你在第三根線上得到的領域相當。
因此,在過去的3000多年裏,人們普遍認為在第三根線上落子和第四根線上落子有著相同的重要性。但在第37步中,阿爾法狗卻把棋子落在了第五條線,進軍棋局的中部區域。“這可能意味著,在過去幾千年裏,人們低估了棋局中部區域的重要性。”
值得一提的是,和去年戰勝李世石的AlphaGo相比,DeepMind 科學家David Silver稱現在AlphaGo要更強三子,他介紹道:“與李世石對戰的AlphaGo 在 雲上有50個TPUs在運作,搜索50個棋步為10000個位置/秒,而昨天打敗柯潔的AlphaGo Master則在單個TPU上進行遊戲,AlphaGo成為自己的老師,它從自己的搜索裏學習,有著更強大的策略和價值網絡。”
柯潔也在今日的微博中,對於AlphaGo團隊給出的檢測報告感歎:自己是在跟怎樣可怕的對手下棋。
“這個差距有多大呢?簡單的解釋一下就是一人一手輪流下的圍棋,對手連續讓你下三步...又像武林高手對決讓你先捅三刀一樣...”柯潔說。
除了下圍棋,AlphaGo還能做什么?
圍棋之外,Demis Hassabis告訴記者,AlphaGo 的高效算法是一種通用型的算法,也可以推廣到其他算法,把人工智能運用到各種各樣的領域,如將AI用到材料設計、新藥研制上,還有現實生活中的應用,如醫療、智能手機、教育等。
他曾舉例,通過與人類專家的合作,可以找到各種各樣的創新方式,包括從“其中一種變體應用於醫療行業,我們正在著力解決蛋白質折疊的問題,用來治療各種疾病。”
“人機合作可以達到1+1大於2的效果,人類的智慧將被人工智能放大。人工智能和AlphaGo都是工具,就像哈勃望遠鏡一樣,可以推進人類文明的進步。”他說。
不過他也對第一財經坦言,圍繞AlphaGo,背後的技術包括圖像處理、大數據分析等,這些技術目前在其它領域的使用還在早期探索階段,只在AlphaGo研究的中間環節某些領域應用,但是在未來肯定會在多個領域推廣相關的技術。
Demis Hassabis還表示,目前信息過載和系統冗雜是人類面臨的巨大挑戰,希望利用AI找到元解決方案。“我們的目標是實現‘人工智能科學家’或‘人工智能輔助科學‘。”
“人工智能和所有強大的新技術一樣,在倫理和責任的約束中造福人類。” Demis Hassabis說。這意味著,人工智能應該是應用於科學、制藥等領域,而不是應用於研發武器、戰爭上;此外,人工智能不能只為少數幾家公司使用,而是為全人類所共享。