人民網(wǎng)北京5月10日電 (記者夏曉倫)國產(chǎn)大模型跑得快,更要跑得“正”。當前,人工智能訓練中最“卡脖子”的環(huán)節(jié)之一,不是算力,而是高質(zhì)量、專業(yè)化、合規(guī)化的語料數(shù)據(jù)。
這一短板正在被補齊。在2026人民網(wǎng)數(shù)據(jù)智能伙伴會活動上,主流價值語料生態(tài)聯(lián)盟正式啟動,參與方鈦媒體發(fā)布了科技領域高質(zhì)量數(shù)據(jù)集,以垂直領域權威、專業(yè)的語料資源,為AI大模型訓練注入“精神底座”的力量。
作為聚焦科技商業(yè)領域的媒體,鈦媒體此次面向聯(lián)盟開放科技領域高質(zhì)量數(shù)據(jù)集及全鏈路技術支撐能力,為語料生態(tài)建設注入垂直領域的核心動能。
鈦媒體執(zhí)行總編輯、首席運營官馬金男介紹,這一數(shù)據(jù)集精準聚焦TMT(科技、媒體、通信)垂直賽道,直擊當前AI訓練中科技語料專業(yè)性不足、時效性不強、版權邊界模糊等痛點,成為主流價值語料生態(tài)聯(lián)盟推動垂直領域語料標準化、規(guī)?;┙o的標志性探索。
這批數(shù)據(jù)集究竟具備怎樣的特質(zhì)?據(jù)介紹,它構(gòu)建了圖文與視頻雙核心的多模態(tài)語料體系,兼具權威性、專業(yè)性、時效性與合規(guī)性。圖文語料庫匯聚海量科技報道、行業(yè)研報與專業(yè)評論,內(nèi)容語言精準規(guī)范、標簽體系完整,富含TMT領域?qū)I(yè)術語與結(jié)構(gòu)化元數(shù)據(jù),可完美適配中文科技商業(yè)垂直領域的語義訓練需求。視頻語料資源則囊括T-EDGE全球創(chuàng)新大會、數(shù)字價值峰會等獨家行業(yè)活動實錄,以及多位企業(yè)家的深度訪談內(nèi)容,配套高精度轉(zhuǎn)錄文本與多模態(tài)標注,能夠直接服務于語音識別、跨模態(tài)模型訓練等核心場景。全部內(nèi)容均經(jīng)過專業(yè)編輯審核,版權清晰可授權,更新頻次高且緊跟數(shù)字經(jīng)濟前沿動態(tài),免費用于科技領域高質(zhì)量數(shù)據(jù)集建設,并面向聯(lián)盟成員開放素材共享。
同時,這些語料可廣泛應用于大模型訓練與價值對齊、產(chǎn)業(yè)政策研究、輿情監(jiān)測預警、知識圖譜構(gòu)建、科技成果轉(zhuǎn)化分析等多元領域。
對于這一成果,中國人民大學新聞學院廣告與傳媒經(jīng)濟系主任、教授、博士生導師王樹良給出了點評。他認為,在主流價值語料庫與科技語料庫的共建工作中,鈦媒體所提供的科技語料,能夠覆蓋人工智能大模型訓練、產(chǎn)業(yè)趨勢研判等核心應用場景?;谄湓诳萍碱I域的長期積累,這些語料可為數(shù)字經(jīng)濟發(fā)展、AI產(chǎn)業(yè)創(chuàng)新及科技治理現(xiàn)代化提供基礎數(shù)據(jù)支持,其建立的質(zhì)量把控機制與實踐優(yōu)化思路,也能為同類語料的標準化建設提供借鑒。
據(jù)了解,在人民日報社指導下,人民網(wǎng)發(fā)起建立了主流價值語料生態(tài)聯(lián)盟,旨在搭建一個“共建共享、互利共贏”的開放協(xié)作平臺,成為連接政、產(chǎn)、學、研各界的紐帶,通過機制創(chuàng)新提升主流價值語料從供給、處理到應用,從標準、規(guī)則研討到達成共識的效率提升。