編譯 | 智東西 ZeR0
編輯 | 漠影
新的索尼大法來了!智東西2月10日報道,今日,索尼AI部門Sony AI重磅宣布,其AI程序擊敗了世界上最頂級的賽車游戲選手,并登上國際學術頂刊Nature的封面。
論文鏈接:https://www.nature.com/articles/s41586-021-04357-7
這是繼AI在撲克、象棋、圍棋、星際爭霸、DOTA等游戲擊敗人類冠軍選手后,游戲AI實現的又一里程碑。作為全球首個能夠在高度擬真賽車模擬游戲中戰勝最強人類選手的賽車AI智能體,索尼的賽車游戲AI GT Sophy僅用一兩天磨練戰術和技巧,就做到了超過賽車模擬游戲《GT賽車》中可以擊敗95%的人類玩家。在訓練總計45000小時后,這個AI程序已經能與頂級GT賽車玩家一較高下。
相比此前AI已經掌握的棋牌類游戲及部分多人策略游戲,《GT賽車》更加復雜,因為它高度模擬現實世界,每輛車、每條軌道都經過建模,視覺、音頻以及動態方面全部盡可能地還原現實世界的駕駛體驗。這使得AI必須具備極強的持續判斷和快速反應能力,在高速變動的條件下,綜合考量摩擦、空氣動力學、駕駛路線、速度、方向等各種因素,在距離對手幾英寸的范圍內,對具有復雜非線性動力學的車輛進行實時控制,并知道如何在不違規的前提下超越對手。“在一場正面競賽中如此超越杰出的人類車手,是AI領域的一項里程碑式成就。”共同撰文的斯坦福大學汽車研究中心聯席主任克里斯·格迪斯(Chris Gerdes)教授相信,用于開發該AI的技術有望在自動駕駛汽車軟件中發揮作用。
GitHub鏈接:https://sonyai.github.io/gt_sophy_public/
01.比玩星際爭霸更強的智能體,精通控制、戰術和禮儀
GT Sophy研究項目啟動于2020年4月,是一個使用新型深度強化學習平臺進行訓練的自主AI智能體,也是Sony AI自2019年11月成立以來一直致力于應對的關鍵挑戰之一。Sony AI以日本、美國和歐洲三地為據點,重點推進游戲、成像、傳感三個AI旗艦項目。Sony AI全球負責人北野弘明還曾放言:“到2050年,要讓 AI 憑自己的科研成果拿下諾貝爾獎!”而今日登上Nature封面的賽車游戲AI,正是Sony AI韜光養晦、籌謀已久的大招!過去兩年間,Sony AI團隊、《GT賽車》系列背后的游戲開發工作室Polyphony Digital(PDI)以及索尼互動娛樂(SIE)的云游戲團隊密切合作,使用SIE管理的云游戲基礎設施訓練這個AI。
為了盡可能重現現實世界的賽車環境,PDI為PlayStation 4創建了超現實主義驅動模擬器GT Sport,并提供API訪問。GT Sport配備了一些最新的汽車動力學模擬,逼真地還原了賽車、賽道乃至空氣阻力、輪胎摩擦等物理現象,并在汽車制造商的指導下嚴扣從車身曲線、車身面板間隙到大燈形狀等每個細節。該模擬器是與國際汽聯合作設計的,在全球擁有超過40萬人的電子競技社區,它帶來了一個具有明確規則和判斷標準的公平賽車環境。
GT Sophy即是在這個終極模擬環境中訓練而出,同樣,分布式訓練平臺DART也對于該AI新成果功不可沒。基于這個定制平臺,Sony AI研究人員能在SIE云游戲平臺的PlayStation 4控制臺上訓練GT Sophy。DART允許研究人員輕松指定實驗,在云資源可用時自動運行,并收集可以在瀏覽器中查看的數據。此外,該平臺還管理PlayStation 4控制臺、代理計算資源和GPU,用于跨數據中心的訓練。它能訪問1000多個PlayStation 4控制臺,每個都用于收集訓練GT Sophy的數據或評估訓練有素的版本。該平臺由必要的計算組件(GPU、CPU)組成,用于與大量PlayStation 4進行交互,并支持長時間的大規模訓練。
DART使得Sony AI的研究團隊能夠同時無縫運行數百個實驗,并探索將GT Sophy提升到更高水平的技術。在這些基礎設施的支持下,僅在一兩天內,GT Sophy就做到超過GT Sport中約95%的選手。經過10天、總計45000小時的駕駛學習,GT Sophy在所有三條賽道上取得了超人般的計時賽表現。為了驗證這個賽車游戲AI的實力,研究人員讓GT Sophy在2021年7月2日和10月21日舉行的“2021賽車挑戰賽”中,與世界上最優秀的四名GT賽車手同臺競技,并成功超過這些頂級人類選手。
02.頂級賽車游戲AI是怎樣煉成的?
為了打造出超強賽車游戲AI,Sony AI研究人員和工程師開發了創新的強化學習技術,包括一種名為Quantitile-Regression Soft Actor-Critic(QR-SAC)的新訓練算法、一種可以理解的賽車規則編碼,以及一種促進獲得細微的賽車技能的訓練方案。深度強化學習是街機游戲、國際象棋、圍棋等復雜策略游戲及其他實時多人策略游戲中大多數AI里程碑的關鍵組成部分,特別適合開發游戲AI智能體,因為強化學習智能體會考慮其行為的長期影響,并能在學習期間獨立收集自己的數據,從而避免了對復雜、手工編碼的行為規則的需求。而處理《GT賽車》等復雜領域,需要同樣復雜和微妙的算法、獎勵和訓練場景。
AI從多個《GT賽車》游戲中獲取信息,通過最大化快速跑圈的獎勵和最小化碰撞的懲罰等方式來學會如何取勝。比如,如果它超過另一輛車就會獲得一定權重的獎勵,但出現抄近路、碰撞、打滑等事故則受到懲罰。GT Sophy在《GT賽車》的三種汽車和賽道組合上接受了多種場景的訓練。其中一些只有AI智能體在賽道上,而另一些則增加了7個正常游戲的NPC對手。每次賽道位置、起始速度、汽車之間的間距以及對手的技能水平都是隨機的。
通過持續學習和積累經驗,GT Sophy掌握了賽車控制、賽車戰術和賽車禮儀的技能。(1)賽車控制:賽車本質上是試圖駕駛處于控制邊緣或行駛更遠地方的汽車。估計制動點、找到最佳路線、尋找抓地力以最大限度地提高速度和控制力等,本身就是非常有趣的機器學習問題。一種新的算法QR-SAC明確推理了GT Sophy高速行動的各種可能結果。解釋駕駛動作的后果和其中的不確定性,有助于GT Sophy在車體極限上通過彎道,并在與不同類型的對手比賽時考慮復雜的可能性。我們來看一個展示GT Sophy極限駕駛技能的例子,在沒有接觸的情況下,智能體可駕駛通過一系列緊貼墻壁的彎道行駛。
(2)賽車戰術:車手需能在高速變化的賽車情況下快速做出決策,到線路超過對手,同時考慮到對手對超車嘗試的反應。雖然AI智能體可以收集自己的數據,但訓練尾流超車(slipstream passing)等特定技能需要對手處于特定位置。為了解決這個問題,GT Sophy的學習包括使用在每條賽道上可能至關重要的人工比賽情況進行混合場景訓練,以及幫助智能體學習這些技能的專門對手。這些技能培養場景幫助GT Sophy獲得了專業的賽車技術,包括處理擁擠的起跑、彈弓式尾流超車,甚至防御機動。
GT Sophy利用急轉彎成功超車人類賽車手
(3)賽車禮儀:車手需要遵守具體規則,以限定賽車可以滑出賽道的程度,以及在發生碰撞時誰應該背責。與此同時,車手需要積極開車才能獲勝,找到正確的平衡是一大挑戰。為了幫助GT Sophy學習運動禮儀,Sony AI研究人員找到了將成文和不成本比賽規則編碼為復雜獎勵功能的方法。研究團隊還發現,有必要平衡對手的數量,以確保GT Sophy有競爭性的訓練比賽,同時不會對人類競爭變得過于激進或膽怯。例如,GT Sophy在不堵塞駕駛線路的情況下超過了人類車手,給他們留下了足夠的機動空間,展示出公平和體育精神。
這些特性,使得GT Sophy與此前在一些經典游戲中擊敗人類冠軍的早期AI智能體區分開來。國際象棋、圍棋等屬于完全信息類游戲,AI無需掌握現實世界的物理,只需專注于游戲策略。即便是玩星際爭霸的AlphaStar和Dota的OpenAI Five,也沒有試圖掌握現實世界的物理學。而現在,GT賽車就在試圖模擬現實世界,因此其戰術、策略和禮儀都至關重要,更難的是,AI需要在汽車在物理極限加速時具備這些技能。
03.還能應用于機器人、無人機和自動駕駛
就像其他打敗人類冠軍的AI一樣,GT Sophy的價值可不僅局限于玩游戲。在GT Sophy的開發過程中,研究人員定期與頂級驅動程序互動,以測試最新版本。“索菲的賽車路線是人類車手永遠想不到的。”《GT賽車》的創造者、現實生活中的賽車手Kazunori Yamauchi說,這項技術將成為其未來版本游戲的一部分,并有望幫助新手和專業司機提高他們的技能。“我認為很多關于駕駛技能的教科書都將被重寫。”GT Sophy也帶給了頂級人類車手新的靈感。FIA Gran Turismo錦標賽2018年冠軍Igor Fraga稱贊說:“GT Sophy向我們展示了我們之前從未想象過的新可能性。”贏得電子競技賽車賽事前所未有“三冠王”的日本頂級選手Takuma Miyazono,從4歲就開始玩虛擬賽車,但他從未遇到過像GT Sophy這樣的賽車手。“Sophy非常快,圈速比最好的車手的預期要好。”他認為,看到Sophy,有些動作才成可能。FIA Gran Turismo錦標賽2020年世界決賽選手Emily Jones亦受到GT Sophy的啟發,她在Dragon Trail上的圈速是107.964秒,而AI的圈速是106.417秒。
Emily Jones
“在某些彎道上,我把車開得很大,然后倒車,而AI則把車開得很近,所以我學到了很多關于線路的知識。還知道該優先考慮什么。以進入第1個彎道為例,我剎車的時間比AI晚,但AI會比我有一個更好的出口,并在下個彎道打敗我。直到我看到AI,我才意識到這一點,并認為「好吧,我應該這么做。」”Emily Jones說。更重要的是,這一研究突破將引發一場關于無人駕駛汽車使用的最佳計算方法的辯論。Sony AI全球負責人北野宏明談道,GT Sophy的目的不僅是超越人類玩家,而是為玩家提供一個具有刺激性的對手,加速并提升玩家的技術和創造力。為GT Sophy開發的AI算法可能也適用于無人機、機器人等其他類型的機器。“除了為游戲社區做出貢獻外,我們相信這一突破也為自動賽車、自動駕駛、高速機器人和控制等領域帶來了新的機遇。”北野宏明說。
Sony AI CEO北野宏明
豐田研究所人類中心駕駛研究高級經理阿維納什·巴拉昌德拉(Avinash Balachandra)認為:“在賽車中使用機器學習和自動控制是令人興奮的。”該研究所正在測試能夠在極端速度下運行的自動駕駛汽車。他說,豐田正在研究“人類放大技術,利用專家從賽車運動中學習的技術,有朝一日可以改善主動安全系統”。馬薩諸塞大學阿姆赫斯特分校研究強化學習的教授布魯諾·卡斯特羅·達席爾瓦(Bruno Castro da Silva)評價GT Sophy是“一項令人印象深刻的成就”,是朝著為自動駕駛汽車訓練AI邁出的重要一步。但他認為,從《GT賽車》到現實世界將是一個挑戰,因為像GT Sophy這樣的強化學習算法很難考慮決策的長期影響,而且也很難保證這些算法的安全性或可靠性。“如果我們希望這樣的AI系統在現實生活中部署,安全保障是最重要的。”da Silva說,“缺乏安全保障,是基于機器學習的機器人尚未廣泛應用于工廠和倉庫的主要原因之一。”
04.結語:AI與游戲玩家的雙重勝利
在評價這一研究進展時,索尼集團董事長、總裁兼CEO吉田憲一郎說:“索尼的宗旨是「通過創造力和技術的力量,讓世界充滿情感」,而GT Sophy就是這一理念的完美體現。”總體來看,賽車游戲AI不僅展現了AI如何學習在復雜情況下工作策略的技術進展,也展示出AI如何為玩家提供新的游戲體驗。據悉,Sony AI和PDI將探索如何將GT Sophy集成到《GT賽車》系列的未來版本中。Polyphony Digital總裁Kazunori Yamauchi相信,這一AI概念將促進游戲和汽車的未來。
來源:Sony AI,Nature,Ars Technica,Wired