虛擬主播一天可錄制500萬字的有聲書、手語數(shù)字人為聽障人士解說冬奧賽事……隨著AI等信息技術(shù)快速發(fā)展,一批虛擬數(shù)字人走紅網(wǎng)絡(luò)。中國傳媒大學媒體融合與傳播國家重點實驗室媒體大數(shù)據(jù)中心日前發(fā)布的《中國虛擬數(shù)字人影響力指數(shù)報告》顯示,近年人們對虛擬內(nèi)容需求增加、消費級VR(虛擬現(xiàn)實)硬件快速發(fā)展,虛擬數(shù)字人發(fā)展進入快車道。
在多個行業(yè)嶄露頭角
去年6月,清華大學迎來中國首個原創(chuàng)虛擬學生“華智冰”。她不僅會4種舞姿,還可以根據(jù)關(guān)鍵字、關(guān)鍵詞賦詩作畫,甚至可以寫一些短篇文章。2021年,萬科總部最佳新人獎的獲得者“崔筱盼”是一位虛擬員工。她的工作內(nèi)容是快速監(jiān)測各類事項的逾期情況,并推動工作及時辦理。
隨著AI技術(shù)的成熟,諸如虛擬員工、虛擬代言人、虛擬學生等虛擬數(shù)字人正愈發(fā)頻繁地出現(xiàn)在公眾視野,在社交、傳媒、營銷等領(lǐng)域創(chuàng)造現(xiàn)實價值。
目前大眾對虛擬數(shù)字人的認知度如何?中國傳媒大學等發(fā)布調(diào)查顯示,對不同類型的虛擬數(shù)字人,大眾對其外形、人設(shè)、技術(shù)能力、服務(wù)能力有著明顯的期待差異:60%以上的用戶最關(guān)注虛擬偶像的外形和作品,66%的用戶關(guān)注虛擬主播的主持風格,但50%的用戶認為虛擬員工最重要的是技術(shù)服務(wù)以及跨界合作能力。
“簡單來說,虛擬數(shù)字人就是融合了計算機視覺、語音識別等AI技術(shù)生成的形象?!彬v訊智能產(chǎn)品副總裁李學朝接受本報記者采訪時說,虛擬數(shù)字人可借助語音與表情更好地溝通表達,從而帶來全新的人機交互體驗。
技術(shù)突破支撐發(fā)展
事實上,虛擬數(shù)字人并不是新鮮概念,最早可追溯至2007年。當時,以語音合成程序為基礎(chǔ)開發(fā)的音源庫“初音未來”,成為首個現(xiàn)象級虛擬偶像。在此后相當長時間內(nèi),虛擬數(shù)字人大多以動漫、游戲形象為主,集中應(yīng)用于影視娛樂產(chǎn)業(yè)。
近年來,技術(shù)環(huán)境的改善讓虛擬數(shù)字人發(fā)展迎來利好。虛擬數(shù)字人形象日趨逼真、交互更加順暢,在越來越多領(lǐng)域發(fā)揮作用。
清華大學新聞與傳播學院教授沈陽表示,機器學習、深度學習和語義理解等技術(shù)取得突破、3D成像傳感器日益成熟、算力提高與通信速度加快,都為虛擬數(shù)字人的發(fā)展質(zhì)量提供了技術(shù)保障。
與此同時,《新一代人工智能發(fā)展規(guī)劃》等多項政策,也加速了虛擬數(shù)字人底層技術(shù)的發(fā)展。其中,《廣播電視和網(wǎng)絡(luò)視聽“十四五”科技發(fā)展規(guī)劃》明確提出,要推動虛擬主播、動畫手語廣泛應(yīng)用于新聞播報、天氣預報、綜藝科教等節(jié)目生產(chǎn),創(chuàng)新節(jié)目形態(tài),提高制播效率和智能化水平。
業(yè)內(nèi)人士表示,按功能劃分,當下的虛擬數(shù)字人可細分為服務(wù)型與身份型兩種。前者可在特定場景提供服務(wù),替代諸多服務(wù)行業(yè)的社會角色,例如企業(yè)員工、主持人、管家等;后者更傾向于在文娛領(lǐng)域應(yīng)用,例如虛擬偶像、虛擬主播等。
《中國虛擬數(shù)字人影響力指數(shù)報告》將當前國內(nèi)應(yīng)用最多、最具人氣的虛擬數(shù)字人分為虛擬偶像、虛擬員工、虛擬主播三類。該報告指出,這三類是當前虛擬數(shù)字人商業(yè)化價值最高、企業(yè)及資本參與度最強的類型。隨著應(yīng)用場景的拓展,未來該分類會進一步拓展、細化。虛擬數(shù)字人將成為人機交互新界面,承載數(shù)字世界的沉浸式體驗。虛擬員工將在消費品、金融、地產(chǎn)、物業(yè)、教育、文旅等服務(wù)行業(yè)發(fā)揮作用。
規(guī)模化落地仍待破局
據(jù)市場研究機構(gòu)“量子位”發(fā)布的《虛擬數(shù)字人深度產(chǎn)業(yè)報告》顯示,到2030年,中國虛擬數(shù)字人市場規(guī)模預計將達到2700億元。到2030年,身份型虛擬數(shù)字人市場規(guī)模預計為1750億元,服務(wù)型虛擬數(shù)字人則相對穩(wěn)定,總規(guī)模也將超過950億元。
虛擬數(shù)字人的走紅折射出虛擬世界與現(xiàn)實世界走向融合的大趨勢,但要真正實現(xiàn)規(guī)模化落地還有不小的差距。例如,虛擬主播可隨時、隨地、定制化播報新聞,體現(xiàn)了人工智能與媒體行業(yè)的深度融合,但在同質(zhì)化競爭、自主技術(shù)能力上還面臨挑戰(zhàn)。
“華智冰”研發(fā)團隊認為,當前,AI正在從感知智能走向認知智能,機器也要從識別語音進化到理解語音,這對虛擬數(shù)字人的人機交互體驗和場景應(yīng)用提出更高要求,帶來更大挑戰(zhàn)。
破局的關(guān)鍵在于深度的場景理解和有效的技術(shù)提升,不少科技企業(yè)已開始探索。以騰訊云小微數(shù)智人為例,基于金融、政務(wù)、文旅等不同行業(yè)需求,可提供多樣化的解決方案,如審核面簽、理財顧問等角色,每個數(shù)智人的側(cè)重能力有所區(qū)分,能更好滿足各類業(yè)務(wù)場景的服務(wù)需求。
“我們希望虛擬數(shù)字人不僅要有真人交互的情感溫度,更要有強大的AI能力。”李學朝說,要保證最優(yōu)服務(wù)性能,為各行各業(yè)輸出完整的解決方案,不斷滲透到智慧生活的各個場景。
此外,虛擬數(shù)字人缺乏行業(yè)規(guī)范,還可能引起假冒人物原型進行詐騙等違法犯罪活動?!疤摂M數(shù)字人看上去與真人高度相似,跟你打視頻、通電話,都可能無法分辨?!鄙虾=煌ù髮W人工智能治理與法律研究中心秘書長何淵說,未來需要對深度合成的虛擬數(shù)字人專門立法。除了政府監(jiān)管,行業(yè)各方還要有合作治理理念,提前防范相關(guān)法律倫理道德風險。