中文高質(zhì)量數(shù)據(jù)集加速建設(shè)
大模型如何更懂“中國話”(“十五五”文化熱詞·推進(jìn)文化和科技融合)
“過馬路時(shí),你要注意看車!”
“我計(jì)劃明天去車展看車。”
這兩句話里的“看車”是一個(gè)意思嗎?相信不少人要會(huì)心一笑,表面上看是同一個(gè)詞組,但其含義因語境不同發(fā)生了變化。
這就是中文里常見的“一詞多義”現(xiàn)象。人工智能大模型是一種與人類語言密切相關(guān)的技術(shù),要讓大模型深刻理解這一現(xiàn)象,離不開中文數(shù)據(jù)的持續(xù)供給。
目前,國內(nèi)多數(shù)模型訓(xùn)練使用的數(shù)據(jù),中文數(shù)據(jù)占比已經(jīng)超過60%,有的模型達(dá)到80%。大模型訓(xùn)練中,中文數(shù)據(jù)占比提升有何意義?中文高質(zhì)量數(shù)據(jù)為何持續(xù)增加?如何進(jìn)一步增加中文數(shù)據(jù)的開發(fā)與供給?記者進(jìn)行了采訪。
數(shù)據(jù)就像大模型的“知識(shí)教材”
不同語言的數(shù)據(jù)對(duì)大模型性能有怎樣的影響?“數(shù)據(jù)就像大模型的‘知識(shí)教材’,教材的語言屬性不同,會(huì)對(duì)模型的知識(shí)體系產(chǎn)生不同影響?!鼻迦A大學(xué)計(jì)算社會(huì)科學(xué)與國家治理實(shí)驗(yàn)室執(zhí)行主任、教授孟慶國表示。
從知識(shí)來源看,過去我國大模型常面臨“數(shù)據(jù)依賴”風(fēng)險(xiǎn)——英文數(shù)據(jù)在全球互聯(lián)網(wǎng)的占比較高,如前沿科技論文、行業(yè)標(biāo)準(zhǔn)、文化典籍等多以英文呈現(xiàn),全球高質(zhì)量標(biāo)注數(shù)據(jù)也多以英文為主。
“語言類大模型一般需要遵循一定的語言習(xí)慣。”工業(yè)和信息化部信息通信經(jīng)濟(jì)專家委員會(huì)委員盤和林認(rèn)為,中文數(shù)據(jù)占比提高,既方便了用戶理解其輸出結(jié)果,又可以保障和提升我國在大模型上的研發(fā)能力。
“若中文數(shù)據(jù)占比低,模型在關(guān)鍵技術(shù)迭代中易受‘?dāng)?shù)據(jù)授權(quán)限制’‘更新延遲’等影響?!泵蠎c國說,中文數(shù)據(jù)占比提高,助力我國在“數(shù)據(jù)安全”“技術(shù)自主”上邁出關(guān)鍵步伐,有利于我國掌握大模型發(fā)展主動(dòng)權(quán)。
“中文數(shù)據(jù)中獨(dú)有的文化習(xí)慣、隱喻表達(dá)、政策術(shù)語等在英文數(shù)據(jù)中難以得到體現(xiàn)。模型長期學(xué)習(xí)英文數(shù)據(jù),所形成的‘英文式認(rèn)知邏輯’,在理解中文特有的思維方式時(shí)容易出現(xiàn)偏差。”科大訊飛消費(fèi)者AI交互業(yè)務(wù)部總經(jīng)理趙艷軍介紹,中文數(shù)據(jù)比重的提升,增強(qiáng)了大模型對(duì)中華文化及中國場(chǎng)景的理解能力。比如中醫(yī)問診時(shí),“上火”“濕氣”等概念需要中文語境才能準(zhǔn)確推理。
從知識(shí)傳承看,中文數(shù)據(jù)承載著我國數(shù)千年的文化積累,中文數(shù)據(jù)占比提高,能讓大模型推動(dòng)中華文化的數(shù)字化傳播?!爸形臄?shù)據(jù)占比高的模型能講解‘文言文虛詞用法’‘詩詞平仄規(guī)律’等。比如,在解釋‘之乎者也’時(shí),結(jié)合《論語》《孟子》等中文典籍案例,讓傳統(tǒng)文化教育更生動(dòng)?!泵蠎c國說。
中文高質(zhì)量數(shù)據(jù)供給能力不斷增強(qiáng)
中文普通數(shù)據(jù)和中文高質(zhì)量數(shù)據(jù)有何區(qū)別?普通數(shù)據(jù)多為未經(jīng)審核的網(wǎng)絡(luò)文本、非專業(yè)內(nèi)容,易出現(xiàn)事實(shí)錯(cuò)誤或概念混淆。而高質(zhì)量數(shù)據(jù)需經(jīng)過“事實(shí)核查、專業(yè)審核”,語義準(zhǔn)確且來源可追溯。
要理解中文高質(zhì)量數(shù)據(jù)的重要性,可從醫(yī)療診斷這一專業(yè)場(chǎng)景講起。今年8月,中文臨床醫(yī)學(xué)知識(shí)圖譜“磐醫(yī)知識(shí)圖譜”在浙江臺(tái)州發(fā)布?!爱?dāng)前,一些大模型學(xué)習(xí)的醫(yī)學(xué)知識(shí),來源于互聯(lián)網(wǎng)公開數(shù)據(jù),而這些公開數(shù)據(jù),有的不嚴(yán)謹(jǐn)、有的存在矛盾、有的更新滯后,這些情況都會(huì)對(duì)大模型生成的結(jié)果產(chǎn)生負(fù)面影響?!闭憬∪♂t(yī)療智能決策重點(diǎn)實(shí)驗(yàn)室主任林輝表示,“磐醫(yī)知識(shí)圖譜”中的數(shù)據(jù)均由醫(yī)學(xué)專家審核,每個(gè)知識(shí)點(diǎn)都有明確來源,且動(dòng)態(tài)更新醫(yī)學(xué)進(jìn)展。
大模型性能的提升,體現(xiàn)了中文高質(zhì)量數(shù)據(jù)的價(jià)值。得益于一系列因素的合力助推,中文高質(zhì)量數(shù)據(jù)的供給能力不斷增強(qiáng)——
政策有支持。從《“數(shù)據(jù)要素×”三年行動(dòng)計(jì)劃(2024—2026年)》提出“打造高質(zhì)量人工智能大模型訓(xùn)練數(shù)據(jù)集”,到國家數(shù)據(jù)局布局建設(shè)數(shù)據(jù)標(biāo)注基地,政策利好下,大量中文高質(zhì)量數(shù)據(jù)集加速建設(shè)。
技術(shù)有突破。中文數(shù)據(jù)因“歧義多、語境依賴強(qiáng)”,早期標(biāo)注成本是英文數(shù)據(jù)的1.8—2.5倍,隨著技術(shù)不斷進(jìn)步,開發(fā)難度也在降低。例如,國內(nèi)某“中文語義標(biāo)注系統(tǒng)”已可自動(dòng)區(qū)分“打毛衣”“打電話”中“打”的含義,讓標(biāo)注效率提升了3倍,且成本有效降低。
行業(yè)有共識(shí)。國內(nèi)垂直場(chǎng)景對(duì)“中文適配”大模型的需求不斷升溫,推動(dòng)中文數(shù)據(jù)從“輔助補(bǔ)充”變?yōu)椤昂诵馁Y源”,更多企業(yè)參與到中文數(shù)據(jù)的開發(fā)之中。如中國移動(dòng)已建成覆蓋超30個(gè)行業(yè)、超3500TB(太字節(jié))的通用高質(zhì)量數(shù)據(jù)集。
協(xié)同建標(biāo)準(zhǔn),細(xì)分多場(chǎng)景
Token(通常所說的“詞元”)是處理文本的最小數(shù)據(jù)單元。數(shù)據(jù)顯示,2024年初,我國日均Token的消耗量為1000億,截至今年9月底,我國日均Token消耗量已突破40萬億。這些數(shù)字背后,是中文數(shù)據(jù)資源的快速積累和價(jià)值釋放。
如何進(jìn)一步增強(qiáng)中文數(shù)據(jù)的開發(fā)和供給?專家學(xué)者帶來了思考和建議。
首先是建標(biāo)準(zhǔn)?,F(xiàn)有的中文數(shù)據(jù)中,重復(fù)的內(nèi)容多、質(zhì)量高的少,尤其是在醫(yī)療、工業(yè)等垂直領(lǐng)域,高質(zhì)量數(shù)據(jù)更是稀缺。比如醫(yī)療數(shù)據(jù),有的醫(yī)院記錄病歷只寫“發(fā)燒”,有的會(huì)寫“發(fā)燒38.5攝氏度、伴咳嗽2天”,若無標(biāo)準(zhǔn)的“尺子”判斷數(shù)據(jù)質(zhì)量,進(jìn)一步的開發(fā)難以推進(jìn)。
“明確了不同領(lǐng)域的中文標(biāo)注標(biāo)準(zhǔn)后,才更有利于建設(shè)和完善評(píng)價(jià)、激勵(lì)機(jī)制?!泵蠎c國認(rèn)為,應(yīng)加快研究制定中文數(shù)據(jù)分級(jí)標(biāo)準(zhǔn),從而釋放中文數(shù)據(jù)的供給活力。
其次是強(qiáng)技術(shù)。高質(zhì)量數(shù)據(jù)集的建設(shè)過程中仍不可避免會(huì)遇到大量數(shù)據(jù)孤島和合規(guī)難題,比如,不同機(jī)構(gòu)的數(shù)據(jù)因?yàn)殡[私安全等合規(guī)要求,難以跨域流通,導(dǎo)致各機(jī)構(gòu)重復(fù)開展數(shù)據(jù)標(biāo)注,既浪費(fèi)資源,又無法形成規(guī)模效應(yīng)。
“可推廣應(yīng)用新一代標(biāo)注技術(shù),在原始數(shù)據(jù)不出域且保證隱私安全的條件下,完成跨機(jī)構(gòu)協(xié)同標(biāo)注,從而整合多機(jī)構(gòu)力量,避免重復(fù)勞動(dòng)。”趙艷軍說。
此外要補(bǔ)場(chǎng)景。我國產(chǎn)業(yè)體系完備,其廣度和深度決定了需要更多細(xì)分場(chǎng)景的中文數(shù)據(jù)。“比如,在元宇宙等新興場(chǎng)景中,中文數(shù)據(jù)使用量僅為英文的1/5;又如,中醫(yī)、非遺等傳統(tǒng)場(chǎng)景數(shù)字化程度低,大量寶貴信息尚未轉(zhuǎn)化為可用數(shù)據(jù)資源?!泵蠎c國表示,可推動(dòng)政產(chǎn)學(xué)研用協(xié)同,專項(xiàng)采集各種垂直場(chǎng)景中文數(shù)據(jù),激活產(chǎn)業(yè)應(yīng)用。
本報(bào)記者 王云杉
推進(jìn)文化和科技融合
“十五五”規(guī)劃建議提出,“推進(jìn)文化和科技融合”。探索文化和科技融合的有效機(jī)制,需要用互聯(lián)網(wǎng)思維和信息技術(shù)改進(jìn)文化創(chuàng)作生產(chǎn)流程,推動(dòng)文化建設(shè)數(shù)智化賦能、信息化轉(zhuǎn)型。
“文化IP+科技體驗(yàn)”,重塑文旅產(chǎn)業(yè)生態(tài)。通過線上數(shù)字平臺(tái)與線下沉浸場(chǎng)景的結(jié)合,多地打造數(shù)字文旅空間、開發(fā)“旅游+智能體”新應(yīng)用等,實(shí)現(xiàn)文化和科技雙向賦能?!拔幕瘎?chuàng)作+人工智能”,拓展產(chǎn)業(yè)融合場(chǎng)景。當(dāng)前,以大模型為代表的AI技術(shù),與影視、文博等領(lǐng)域深度融合,催生出AI短劇、博物館數(shù)字文創(chuàng)等新產(chǎn)品,不僅豐富了文化表達(dá)方式,也培育出更多文化消費(fèi)新場(chǎng)景?!疤厣幕?數(shù)字技術(shù)”,助力鄉(xiāng)村全面振興。通過數(shù)字技術(shù),將地標(biāo)農(nóng)產(chǎn)品、鄉(xiāng)村非遺技藝融入微短劇等內(nèi)容創(chuàng)作,能夠進(jìn)一步提升特色文化產(chǎn)品的創(chuàng)意能力和表現(xiàn)力,為鄉(xiāng)村全面振興注入新動(dòng)能。
——北京大學(xué)文化產(chǎn)業(yè)研究院學(xué)術(shù)委員會(huì)主任 陳少峰
來源:《人民日?qǐng)?bào)》(2025年12月25日 第 07 版)