新浪科技訊 1月10日晚間消息,清華大學(xué)北京重點(diǎn)實(shí)驗(yàn)室、智譜AI發(fā)起的AGI-Next前沿峰會(huì)上,月之暗面Kimi創(chuàng)始人、CEO楊植麟公開分享了Kimi預(yù)訓(xùn)練遵循的兩大策略:第一,提升Token Efficiency;第二,實(shí)現(xiàn)長上下文(Long context)。
楊植麟指出,Transformer的架構(gòu)優(yōu)勢體現(xiàn)在長上下文場景中。實(shí)驗(yàn)表明,當(dāng)上下文長度增加到1000個(gè)token時(shí),代表Transformer的性能表現(xiàn)會(huì)顯著下降到LSTM之下,顯示出卓越的性能。這揭示了架構(gòu)在不同上下文長度下的優(yōu)勢差異,是一個(gè)至關(guān)重要的指標(biāo)。尤其在當(dāng)前的Agentic(代理智能)時(shí)代,因?yàn)樵S多Agent任務(wù)要求極長的上下文來完成高度復(fù)雜的指令,因此一個(gè)擁有更低positional loss(位置損失)的架構(gòu),意味著它在執(zhí)行Agent任務(wù)時(shí)具備更強(qiáng)的技術(shù)潛力。
基于此,楊植麟指出,月之暗面的預(yù)訓(xùn)練策略,乃至整個(gè)模型的設(shè)計(jì)策略,均是圍繞提升tokenefficiency和實(shí)現(xiàn)long context展開。
為什么要關(guān)注Token efficiency,本質(zhì)上是因?yàn)锳gent的推理或訓(xùn)練是搜索過程,比如你想從零開發(fā)一個(gè)Linux,本質(zhì)上是搜索問題,如果你有無限的數(shù)據(jù),可以把所有可能的情況枚舉遍,選出好的操作系統(tǒng)方案。但你讓AI開發(fā)Linux,這個(gè)過程中并不需要枚舉每一種可能的Token組合情況,因?yàn)楹芏嘟M合是沒有意義或錯(cuò)誤的,更好的預(yù)訓(xùn)練和基礎(chǔ)模型是減少了搜索空間,提升了更好的先驗(yàn)。
楊植麟還進(jìn)一步指出,除了架構(gòu)、更好的數(shù)據(jù)等挑戰(zhàn),做AI模型研究很重要的是要有更多的Taste——即品位和審美?!拔矣X得模型是一個(gè)很不一樣的東西,做模型的過程本質(zhì)是在創(chuàng)造一種世界觀,你覺得什么樣的東西是好的,一個(gè)好的AI應(yīng)該是有什么樣的,應(yīng)該追求什么樣的價(jià)值觀,有點(diǎn)像喬布斯講的(Taste)。”楊植麟表示。
楊植麟指出,智能和很多別的東西不一樣,每個(gè)模型產(chǎn)生的Token,本身不是一個(gè)可交換的東西,如果今天看很多事情是相同的,是等價(jià)交換,但智能并不是這樣的?!耙粋€(gè)CEO產(chǎn)生的智能,和一個(gè)設(shè)計(jì)師產(chǎn)生的智能是不同的,因此在智能維度,你有非常多的Taste的空間,空間是指數(shù)增加,會(huì)有更多新的Taste出來?!睏钪谗氡硎?。(文猛)