趣丸科技副總裁、總編輯任少峰。 人民網(wǎng)記者 任峰濤攝
聚焦當(dāng)下,人工智能技術(shù)在聲音領(lǐng)域取得了哪些成果?展望未來(lái),AIGC技術(shù)還有望在哪些場(chǎng)景落地應(yīng)用?11月20日,“人民之夜@烏鎮(zhèn)咖薈”在浙江烏鎮(zhèn)成功舉辦,趣丸科技副總裁、總編輯任少峰在現(xiàn)場(chǎng)接受了人民網(wǎng)記者專(zhuān)訪。
人民網(wǎng):在聲音領(lǐng)域,人工智能技術(shù)目前取得了哪些成果?
任少峰:首先是開(kāi)源語(yǔ)音大模型。例如,趣丸科技與香港中文大學(xué)深圳校區(qū)合作研發(fā)的開(kāi)源語(yǔ)音大模型“MaskGCT”,它訓(xùn)練于10萬(wàn)小時(shí)數(shù)據(jù)集Emilia,是全球最大且最為多樣的高質(zhì)量多語(yǔ)種語(yǔ)音數(shù)據(jù)集之一,精通中英日韓法德6種語(yǔ)言的跨語(yǔ)種合成,可用于聲音克隆、語(yǔ)音生成,降低視頻制作、內(nèi)容播報(bào)等場(chǎng)景中的語(yǔ)音錄制成本,使更多相關(guān)從業(yè)者從中受益。
其次是音樂(lè)生成大模型“天譜樂(lè)(TemPolor)”。用戶(hù)通過(guò)提供關(guān)鍵詞、音頻、照片或視頻等素材,即可在平臺(tái)上生成包含人聲、唱詞、樂(lè)器,多種曲風(fēng)的歌曲。目前,這項(xiàng)技術(shù)已應(yīng)用于短視頻和影視創(chuàng)作,如影視公司自制微短劇的配樂(lè)。未來(lái),行業(yè)將繼續(xù)降低這項(xiàng)技術(shù)門(mén)檻,讓它實(shí)現(xiàn)更加“普惠化”發(fā)展。
人民網(wǎng):今后人工智能技術(shù)還有哪些潛在的應(yīng)用場(chǎng)景?
任少峰:我從已經(jīng)有了一定基礎(chǔ)的場(chǎng)景,到未來(lái)可能發(fā)揮作用的場(chǎng)景進(jìn)行展望:
一是兼具可視化數(shù)字形象以及實(shí)時(shí)交互能力的智能客服系統(tǒng)。目前我們已經(jīng)開(kāi)發(fā)了一站式數(shù)字人生成平臺(tái),僅需一張照片便可以生成獨(dú)特的數(shù)字人“分身”,根據(jù)給定知識(shí)庫(kù)自主為用戶(hù)解答問(wèn)題。
二是為中小型商家提供數(shù)字人直播帶貨服務(wù)。僅需每月支付一定服務(wù)費(fèi),即可實(shí)現(xiàn)24 小時(shí)不間斷直播。
三是促進(jìn)文化出海。智能翻譯系統(tǒng)可將海量微短劇翻譯為其他國(guó)家語(yǔ)言,同時(shí)精準(zhǔn)對(duì)應(yīng)音色、口型與表情,從而降低人力成本,助力文化傳播。
四是人物、物體和場(chǎng)景的三維重建。它的應(yīng)用場(chǎng)景包括家居設(shè)計(jì)、游戲設(shè)計(jì)等領(lǐng)域,可以顯著提高生產(chǎn)效率。此外,這項(xiàng)技術(shù)還有望與3D打印機(jī)相結(jié)合,將AIGC重建的模型轉(zhuǎn)化為實(shí)物。
人民網(wǎng):當(dāng)前人工智能技術(shù)應(yīng)用場(chǎng)景拓展存在哪些難點(diǎn)?
任少峰:結(jié)合我們的日常工作經(jīng)驗(yàn),當(dāng)前人工智能技術(shù)應(yīng)用場(chǎng)景拓展存在的“堵點(diǎn)”主要有三個(gè)方面,首先是人工智能團(tuán)隊(duì)任務(wù)繁重,既要進(jìn)行基礎(chǔ)技術(shù)研究又要承接產(chǎn)品需求;其次是人工智能技術(shù)應(yīng)用端行業(yè)缺乏將人工智能與業(yè)務(wù)相結(jié)合的具體思路;三是缺乏能將技術(shù)與應(yīng)用結(jié)合起來(lái)的“中游”咨詢(xún)機(jī)構(gòu)、中介機(jī)構(gòu),希望未來(lái)社會(huì)各界能在促進(jìn)技術(shù)與應(yīng)用融合方面做出更多嘗試。
相關(guān)閱讀:
量子之歌李鵬:以數(shù)字技術(shù)賦能老年教育
震坤行劉陽(yáng):以數(shù)智之力調(diào)降工業(yè)品采購(gòu)“三高”
星云智慧李明:機(jī)器人產(chǎn)業(yè)很可能是下一個(gè)汽車(chē)產(chǎn)業(yè)