人民網(wǎng)北京5月14日電 (焦磊、實習生張泊洋)陪人聊天、幫助分析工作中的問題并給出解決方案,甚至和人建立起情感羈絆……在科幻電影《Her》中,聊天機器人“Samantha”用充滿智慧和幽默的回答展示出高度的智能性和適應性。當下,這些來自過去的科幻想象正加速照入現(xiàn)實中。
北京時間5月14日凌晨,美國科技公司OpenAI在春季發(fā)布會上發(fā)布了最新GPT-4o多模態(tài)大模型。據(jù)OpenAI公司首席技術(shù)官米拉·穆拉蒂(Mira Murati)介紹,GPT-4o可以接收文本、音頻和圖像的任意組合作為輸入,并實時生成文本、音頻和圖像的任意組合進行輸出,其中“o”代表“omni全能”。
一直以來,多模態(tài)人機交互便是AI領域重點研究發(fā)力方向之一。繼文生視頻大模型Sora之后,GPT-4o的發(fā)布迎合了業(yè)內(nèi)對多模態(tài)大模型的更多期待。
模態(tài)即每一種信息的來源或形式。人們在信息獲取、環(huán)境感知、知識學習與表達等方面都是采用多模態(tài)的輸入、輸出方式。業(yè)內(nèi)分析認為,相比單模態(tài),多模態(tài)大模型同時處理文本、圖片、音頻以及視頻等多類信息,與現(xiàn)實世界融合度高,更符合人類接收、處理和表達信息的方式,與人類交互方式更加靈活,表現(xiàn)得更加智能,能夠執(zhí)行更大范圍的任務。
作為面向未來人機交互范式的全新大模型,GPT-4o具有文本、語音、圖像三種模態(tài)的理解力,并可以綜合對話者語氣和所處環(huán)境空間等因素進行回答,展現(xiàn)出了高度智能性。
發(fā)布會上,GPT-4o展示了多項多模態(tài)交互能力。在進行實時語音交流時,其響應極快,并且可以識別用戶的語音情緒,語音有情感,還能用不同語言和多人同時交互。在語音的同時可以與視頻實時交互,演示了一邊聊天一邊解答手寫數(shù)學問題,以及實時交流閱讀代碼,指導編程、視頻聊天等能力。
米拉·穆拉蒂表示,“這是我們第一次在易用性方面真正向前邁出了一大步?!?/p>
此前,大模型在各個領域的應用主要集中在文生文、文生圖之上,今年初Sora的發(fā)布則推動文生視頻領域進一步發(fā)展。業(yè)內(nèi)分析表示,此次GPT-4o的發(fā)布,將促使多模態(tài)綜合交互成為生成式AI的重點發(fā)展方向,進而提升人機交互效率,逐漸向AGI方向邁進。
國盛證券研報分析,GPT-4o是邁向更自然的人機交互的重大進步,新功能帶來了嶄新的多模態(tài)交互能力,通過新的端到端模型實現(xiàn)了體驗上的新突破,有望在各類終端實現(xiàn)用戶體驗的最大化。
多模態(tài)大模型包含的圖文、音頻、視頻內(nèi)容數(shù)據(jù)量巨大,進而引發(fā)人們對算力供應的關(guān)注。業(yè)內(nèi)分析認為,未來AI的發(fā)展對算力的需求將會是幾何式增長,算力限制可能是影響生成式AI應用開放使用的重要因素,而算力的可獲取性以及成本將是挑戰(zhàn)之一。此外,多模態(tài)大模型還將帶來更嚴峻的安全挑戰(zhàn)。
米拉·穆拉蒂表示,在安全性問題上,GPT-4o通過過濾訓練數(shù)據(jù)和通過訓練后細化模型行為等技術(shù),在跨模態(tài)設計中內(nèi)置了安全性。OpenAI還創(chuàng)建了新的安全系統(tǒng),為語音輸出提供防護。
據(jù)介紹,用戶可有數(shù)量限制地免費使用GPT-4o模型來進行數(shù)據(jù)分析、圖像分析、互聯(lián)網(wǎng)搜索、訪問應用商店等操作。
OpenAI CEO山姆?奧特曼在發(fā)布會后表示,“我們將創(chuàng)造人工智能,然后其他人將使用它來創(chuàng)造各種令人驚奇的事物,我們所有人都會從中受益。”此外,他還表示OpenAI其他業(yè)務收入將幫助公司向數(shù)十億人提供免費的人工智能服務。