人工智能大模型下圍棋已不是新鮮事,玩電腦游戲水平如何?不久前,淘天集團未來生活實驗室算法工程師,嘗試利用多模態(tài)大模型體驗國產(chǎn)電腦游戲《黑神話:悟空》,探索大模型在特定場景中的能力邊界,取得令人驚喜的效果。相關研究成果已上線論文預印本網(wǎng)站arXiv。
《黑神話:悟空》是典型的動作角色扮演類游戲。在當前大模型研究領域,有不少研究者選擇將該類游戲作為研究平臺,采用純視覺輸入、復雜動作輸出的模式,測試大模型在特定場景下的性能表現(xiàn)。其中,純視覺輸入是指模型僅通過理解和分析游戲截圖進行決策,而復雜動作輸出則需要模型生成并執(zhí)行復雜而連續(xù)的動作,如戰(zhàn)斗場景中的精確操作。
想要讓多模態(tài)大模型控制游戲角色,要克服兩大困難。一是直接視覺輸入的挑戰(zhàn)。由于大模型所需的環(huán)境數(shù)據(jù)不一定能通過游戲API(應用程序編程接口)獲取,因此對于那些需要深入理解游戲界面的大型游戲而言,學習從視覺輸入中進行推理是一種更直接的策略,這給大模型帶來不小挑戰(zhàn)。二是面向動作任務的困難。在動作類游戲中,基于強化學習的框架仍然占主導地位,但在特定任務上需要大量訓練時間,遷移到其他任務上泛化能力較差,表現(xiàn)往往不佳。
為突破上述瓶頸,在此次研究中,技術團隊提出了一個名為VARP Agent(視覺動作角色扮演智能體)的新框架。它直接以游戲截圖為輸入,通過一組多模態(tài)大模型的推理,最終生成可以直接操作游戲角色的代碼,每個動作都是由各種原子命令組合而成的序列。這些原子命令包括輕攻擊、躲避、重攻擊、恢復血量等。同時,該框架包含三個庫:情境庫、動作庫和人類引導庫。這些庫可以被檢索和更新,以存儲用于自我學習和人類指導的密集知識。
技術團隊定義了10個基本任務和2個挑戰(zhàn)任務,其中75%的任務發(fā)生在戰(zhàn)斗場景中。對于戰(zhàn)斗任務,如果玩家角色擊敗了敵人,則任務成功;如果玩家角色被敵人擊敗,則任務失敗。研究結果顯示,該框架在基本任務和簡單到中等難度的戰(zhàn)斗中,勝率高達90%,但在面對高難度任務時,表現(xiàn)相對較差??傮w來看,其整體水平仍不如高水平人類玩家,但研究成果可為設計應對更廣泛挑戰(zhàn)、更復雜的智能體提供參考。