對(duì)語(yǔ)言文字,我們“日學(xué)而不察、日用而不覺”。其實(shí),語(yǔ)言文字是國(guó)家重要的教育、科技、文化、經(jīng)濟(jì)、安全和戰(zhàn)略資源。近日,為搶抓大語(yǔ)言模型迭代升級(jí)新機(jī)遇,教育部、國(guó)家語(yǔ)委、中央網(wǎng)信辦印發(fā)《關(guān)于加強(qiáng)數(shù)字中文建設(shè) 推進(jìn)語(yǔ)言文字信息化發(fā)展的意見》(以下簡(jiǎn)稱《意見》)。3月31日,教育部舉行新聞發(fā)布會(huì),專門對(duì)《意見》進(jìn)行全面解讀。
教育部語(yǔ)言文字信息管理司司長(zhǎng)劉培俊介紹,《意見》明確提出,將數(shù)字中文建設(shè)作為服務(wù)數(shù)字中國(guó)建設(shè)的重要任務(wù)和全面推進(jìn)語(yǔ)言文字信息化發(fā)展的突出重點(diǎn),全方位釋放語(yǔ)言文字在經(jīng)濟(jì)社會(huì)發(fā)展中的數(shù)據(jù)要素價(jià)值。在實(shí)踐中,既要規(guī)范、有效、批量地將中文資源信息轉(zhuǎn)化為智能數(shù)據(jù),也要促進(jìn)中文數(shù)據(jù)的規(guī)模生產(chǎn)、優(yōu)質(zhì)集成、規(guī)范治理和復(fù)用增效,實(shí)現(xiàn)以數(shù)字化手段構(gòu)建新型中文服務(wù)體系,引領(lǐng)帶動(dòng)語(yǔ)言文字信息化全面發(fā)展。
為何強(qiáng)調(diào)數(shù)字中文?劉培俊表示,中文使命重大,數(shù)字中國(guó)建設(shè),加大國(guó)家通用語(yǔ)言文字推廣力度、深化中華優(yōu)秀語(yǔ)言文化傳承、增進(jìn)語(yǔ)言文明國(guó)際交流互鑒等多項(xiàng)重大任務(wù)都更加需要中文數(shù)字化賦能。中文文化內(nèi)涵豐富,是中國(guó)貢獻(xiàn)給世界的重要公共文化產(chǎn)品,更加需要中文數(shù)字化傳播。中文使用范圍廣泛,更加需要中文數(shù)字化學(xué)習(xí)。而且,中文數(shù)據(jù)價(jià)值突出,大規(guī)模、高質(zhì)量的中文數(shù)據(jù)有利于推動(dòng)中國(guó)特色大語(yǔ)言模型創(chuàng)新發(fā)展,更加需要中文數(shù)字化支撐。
劉培俊介紹,未來(lái)在技術(shù)創(chuàng)新應(yīng)用上,要發(fā)揮自然語(yǔ)言處理技術(shù)支撐人工智能發(fā)展的基礎(chǔ)作用,加快領(lǐng)域大語(yǔ)言模型應(yīng)用試點(diǎn),確保規(guī)范安全,示范應(yīng)用;研制面向人工智能的語(yǔ)言資源建設(shè)、管理、應(yīng)用標(biāo)準(zhǔn),特別是語(yǔ)料和數(shù)據(jù)質(zhì)量評(píng)價(jià)標(biāo)準(zhǔn)等。在數(shù)據(jù)資源建設(shè)上,發(fā)揮語(yǔ)言文字服務(wù)國(guó)家語(yǔ)言能力建設(shè)的戰(zhàn)略作用,實(shí)施國(guó)家關(guān)鍵語(yǔ)料庫(kù)建設(shè)計(jì)劃,建設(shè)大規(guī)模中文語(yǔ)料庫(kù)等。在關(guān)鍵領(lǐng)域賦能上,發(fā)揮信息技術(shù)賦能國(guó)家語(yǔ)言服務(wù)體系構(gòu)建的全局優(yōu)勢(shì),研制大語(yǔ)言模型能力素養(yǎng)框架(師生版),推進(jìn)甲骨文數(shù)字化共享,實(shí)施中華文化優(yōu)秀課程多語(yǔ)種數(shù)字化傳播計(jì)劃等。
北京大學(xué)王選計(jì)算機(jī)研究所所長(zhǎng)湯幟指出,上世紀(jì)80年代,激光照排技術(shù)的發(fā)明,讓承載中華文化的中文在全球互聯(lián)網(wǎng)空間獲得新生。當(dāng)前,大語(yǔ)言模型技術(shù)對(duì)大規(guī)模高質(zhì)量語(yǔ)料提出前所未有的需求,中文信息處理技術(shù)的發(fā)展從以往解決漢字輸入輸出的基礎(chǔ)性問(wèn)題,進(jìn)階到當(dāng)前釋放語(yǔ)言文字?jǐn)?shù)據(jù)要素價(jià)值的全方位突破。
湯幟表示,加強(qiáng)數(shù)字中文建設(shè)將重塑發(fā)展格局,推動(dòng)中文信息處理技術(shù)發(fā)展進(jìn)入新階段。語(yǔ)言文字將實(shí)現(xiàn)從“靜態(tài)符號(hào)”向“動(dòng)態(tài)數(shù)字資產(chǎn)”、從“信息載體”向“生產(chǎn)要素”的轉(zhuǎn)型,要重點(diǎn)推動(dòng)語(yǔ)料庫(kù)、數(shù)據(jù)標(biāo)注與評(píng)價(jià)等標(biāo)準(zhǔn)的研制,支持文本生成與理解、語(yǔ)言翻譯、情感分析等各種任務(wù)。語(yǔ)言文字還將實(shí)現(xiàn)從符號(hào)存儲(chǔ)到智能建模的質(zhì)變,因此,要聚焦關(guān)鍵垂直領(lǐng)域建設(shè)語(yǔ)料基礎(chǔ)設(shè)施,構(gòu)建支持大模型訓(xùn)練的高質(zhì)量中文數(shù)據(jù)集。
湯幟強(qiáng)調(diào),語(yǔ)言文字還會(huì)起到賦能全局發(fā)展的作用。新形勢(shì)下,語(yǔ)言文字信息處理技術(shù)創(chuàng)新應(yīng)用正經(jīng)歷從“GB2312字符集”到“萬(wàn)億參數(shù)大語(yǔ)言模型”的范式變革,語(yǔ)言文字將實(shí)現(xiàn)與信息技術(shù)的深度融合,形成“技術(shù)突破—場(chǎng)景落地—生態(tài)繁榮”的良性循環(huán),服務(wù)教育發(fā)展,助力科技創(chuàng)新,賦能文化傳承,推動(dòng)產(chǎn)業(yè)升級(jí),促進(jìn)社會(huì)進(jìn)步。(科技日?qǐng)?bào)北京3月31日電)