本報(bào)電(記者劉峣)近日,北京智源人工智能研究院正式發(fā)布原生多模態(tài)世界模型Emu3。該模型實(shí)現(xiàn)了視頻、圖像、文本三種模態(tài)的統(tǒng)一理解與生成,成功驗(yàn)證了基于下一個(gè)token(詞元)預(yù)測(cè)的多模態(tài)技術(shù)范式,釋放其在大規(guī)模訓(xùn)練和推理上的潛力。
據(jù)了解Emu3只基于下一個(gè)token預(yù)測(cè),無需擴(kuò)散模型或組合式方法,把圖像、文本和視頻編碼為一個(gè)離散空間,在多模態(tài)混合序列上從頭開始聯(lián)合訓(xùn)練一個(gè)Transformer。
智源研究院院長(zhǎng)王仲遠(yuǎn)表示,Emu3為構(gòu)建多模態(tài)通用人工智能提供了廣闊的技術(shù)前景,有機(jī)會(huì)將基礎(chǔ)設(shè)施建設(shè)收斂到一條技術(shù)路線上,為大規(guī)模多模態(tài)訓(xùn)練和推理提供基礎(chǔ)。未來,多模態(tài)世界模型將促進(jìn)機(jī)器人大腦、自動(dòng)駕駛、多模態(tài)對(duì)話和推理等場(chǎng)景應(yīng)用。