伊人六月,97自拍超碰,久久精品亚洲7777影院,五月婷婷综合在线观看,日本亚洲欧洲无免费码在线,2019国产精品视频,国产精品第一页在线

首頁  >  財經(jīng)  >  財經(jīng)要聞

DeepSeek又放大招!梁文鋒署名新論文引關(guān)注

2026-01-02 18:43:00

來源:21世紀(jì)經(jīng)濟(jì)報道

  DeepSeek近日發(fā)布論文,闡述了一種更為高效的人工智能開發(fā)方法。該論文由創(chuàng)始人梁文鋒參與撰寫,提出了名為“流形約束超連接”(mHC)的框架。作者稱,該框架旨在提升可擴(kuò)展性,同時降低訓(xùn)練先進(jìn)人工智能系統(tǒng)的算力和能源需求。DeepSeek下一代旗艦系統(tǒng)R2預(yù)計將在2月份春節(jié)前后問世。

  DeepSeek提出mHC新架構(gòu)

  1月1日消息,DeepSeek發(fā)布了一篇新論文,提出了一種名為mHC(流形約束超連接)的新架構(gòu)。

  該研究旨在解決傳統(tǒng)超連接在大規(guī)模模型訓(xùn)練中的不穩(wěn)定性問題,同時保持其顯著的性能增益。

  這篇論文的第一作者有三位:Zhenda Xie(解振達(dá))、Yixuan Wei(韋毅軒)、Huanqi Cao。值得注意的是,DeepSeek創(chuàng)始人梁文鋒也在作者名單中。

  論文摘要指出,近來,以超連接(HC)為代表的研究通過拓寬殘差流寬度和多樣化連接模式,拓展了過去十年間確立的普遍采用的殘差連接范式。雖然這些改進(jìn)帶來了顯著的性能提升,但連接模式的多樣化從根本上削弱了殘差連接固有的恒等映射特性,導(dǎo)致嚴(yán)重的訓(xùn)練不穩(wěn)定性與受限的可擴(kuò)展性,同時還造成了顯著的內(nèi)存訪問開銷。

  為了解決這些問題,DeepSeek提出了流形約束超連接(mHC)——一種通用框架,能夠?qū)C的殘差連接空間投影到特定流形上,從而恢復(fù)恒等映射特性,并融合嚴(yán)格的基礎(chǔ)設(shè)施優(yōu)化以確保運行效率。

  DeepSeek稱,實證實驗表明,mHC能夠有效支持大規(guī)模訓(xùn)練,在提供明顯性能提升的同時具備更優(yōu)的可擴(kuò)展性。DeepSeek預(yù)計,mHC作為HC的一種靈活而實用的拓展,將有助于深化對拓?fù)浼軜?gòu)設(shè)計的理解,并為基座模型的演進(jìn)指明富有前景的方向。

  內(nèi)部大規(guī)模訓(xùn)練結(jié)果顯示,mHC可有效支持規(guī)?;?xùn)練,當(dāng)擴(kuò)展率?=4時,僅帶來6.7%的額外時間開銷。

  圖為殘差連接范式的示意圖。本圖對比了 (a) 標(biāo)準(zhǔn)殘差連接、(b) 超連接 以及 (c) 流形約束超連接的結(jié)構(gòu)設(shè)計。與無約束的HC不同,mHC通過將連接矩陣投影到一個約束流形上,專注于優(yōu)化殘差連接空間,從而確保訓(xùn)練的穩(wěn)定性。

  論文在結(jié)論與展望部分指出,實證結(jié)果表明,mHC能有效恢復(fù)恒等映射特性,相較于傳統(tǒng)HC,能以更優(yōu)的可擴(kuò)展性實現(xiàn)穩(wěn)定的大規(guī)模訓(xùn)練。關(guān)鍵的是,通過高效的基礎(chǔ)設(shè)施級優(yōu)化,mHC以可忽略的計算開銷實現(xiàn)了上述改進(jìn)。

  論文還指出,作為HC范式的廣義拓展,mHC為未來研究開辟了多個重要方向:雖然本研究采用雙隨機(jī)矩陣確保穩(wěn)定性,但該框架可兼容針對特定學(xué)習(xí)目標(biāo)設(shè)計的多種流形約束探索;預(yù)計對差異化幾何約束的深入研究可能催生能更好權(quán)衡可塑性—穩(wěn)定性關(guān)系的新方法。此外,DeepSeek希望mHC能重新激發(fā)學(xué)界對宏觀架構(gòu)設(shè)計的關(guān)注。通過深化對拓?fù)浣Y(jié)構(gòu)如何影響優(yōu)化與表征學(xué)習(xí)的理解,mHC將有助于突破現(xiàn)有局限,并可能為下一代基礎(chǔ)架構(gòu)的演進(jìn)指明新路徑。

  DeepSeek頻頻上“熱搜”

  近期,DeepSeek動作不斷,“熱搜”也不斷。

  2025年12月8日

  梁文鋒入選《自然》年度十大科學(xué)人物

  2025年12月8日,英國《自然》雜志網(wǎng)站發(fā)布2025年度十大科學(xué)人物榜單,中國人工智能企業(yè)深度求索創(chuàng)始人梁文鋒和中國科學(xué)院深??茖W(xué)家杜夢然入選。

  2025年1月,來自中國的一則公告震撼了人工智能界。深度求索公司發(fā)布其強(qiáng)大而低成本的R1推理模型?!蹲匀弧冯s志網(wǎng)站稱,這瞬間證明美國在人工智能領(lǐng)域的發(fā)展并不像許多專家想象的那樣遙遙領(lǐng)先。

  2025年12月1日

  DeepSeek發(fā)布兩個正式版模型

  據(jù)DeepSeek官微,2025年12月1日,DeepSeek發(fā)布兩個正式版模型:DeepSeek-V3.2和DeepSeek-V3.2-Speciale。DeepSeek-V3.2強(qiáng)化Agent能力,官方網(wǎng)頁端、App和API均已更新為正式版DeepSeek-V3.2。Speciale版本目前僅以臨時API服務(wù)形式開放,以供社區(qū)評測與研究。

  2025年11月27日

  DeepSeek推出新模型

  2025年11月27日,DeepSeek推出新型數(shù)學(xué)推理模型DeepSeekMath-V2,采用可自我驗證的訓(xùn)練框架。該模型基于DeepSeek-V3.2-Exp-Base構(gòu)建,通過LLM驗證器自動審查生成的數(shù)學(xué)證明,并利用高難度樣本持續(xù)優(yōu)化性能。

  2025年10月20日

  DeepSeek開源新模型

  2025年10月20日,DeepSeek-AI團(tuán)隊發(fā)布《DeepSeek-OCR:Contexts Optical Compression》論文,提出利用視覺模態(tài)壓縮長文本上下文的新方法。根據(jù)介紹,此次開源的 DeepSeek-OCR 由兩個部分組成:核心編碼器 DeepEncoder 和解碼器 DeepSeek3B-MoE-A570M。在實際生產(chǎn)中,DeepSeek-OCR 可在單塊 A100-40G 顯卡上每天生成超過 20 萬頁的大語言模型 / 視覺語言模型訓(xùn)練數(shù)據(jù)。

  2025年9月29日

  DeepSeek-V3.2-Exp模型正式發(fā)布

  2025年9月29日,深度求索公司發(fā)布了 DeepSeek-V3.2-Exp 模型,其宛如再次向國產(chǎn)芯片江湖投入一枚巨石。

  官方公告顯示,新版本模型實驗性地引入了 DeepSeek Sparse Attention(一種稀疏注意力機(jī)制),其顯著降低計算資源消耗并提升推理效率。

  而得益于這一技術(shù)創(chuàng)新,深度求索宣布其官方App、網(wǎng)頁端、小程序均已同步更新為新模型,并全面下調(diào)API價格,降幅在50%到75%不等。

  值得注意的是,不同于上次發(fā)布 DeepSeek-V3.1版本時“猶抱琵琶半遮面”的狀態(tài),此次 V3.2 EXP 版本的發(fā)布,幾乎零時差引發(fā)數(shù)個國產(chǎn)芯片廠商——華為、寒武紀(jì)、海光等的“認(rèn)領(lǐng)”。

  2025年9月17日

  登上《自然》!DeepSeek-R1訓(xùn)練方法發(fā)布

  2025年9月17日,由DeepSeek團(tuán)隊共同完成、梁文鋒擔(dān)任通訊作者的DeepSeek-R1推理模型研究論文,登上國際頂級期刊《自然(Nature)》的封面。該期刊編輯部直言:目前幾乎所有主流的大模型都還沒有經(jīng)過獨立同行評審,這一空白“終于被DeepSeek打破”。

  DeepSeek-R1包含一個在人類監(jiān)督下的深入訓(xùn)練階段,以優(yōu)化推理過程。梁文鋒團(tuán)隊報告稱,該模型使用了強(qiáng)化學(xué) 習(xí) 而非人類示例來開發(fā)推理步驟,減少了訓(xùn)練成本和復(fù)雜性。DeepSeek-R1在被展示優(yōu)質(zhì)的問題解決案例后,會獲得一個模板來產(chǎn)生推理過程,即這一模型通過解決問題獲得獎勵,從而強(qiáng)化學(xué)習(xí)效果。團(tuán)隊總結(jié)說, 未來研究可以聚焦優(yōu)化獎勵過程,以確保推理和任務(wù)結(jié)果更可靠。

  來源:綜合自證券時報、財聯(lián)社、21世紀(jì)經(jīng)濟(jì)報道及公開信息

免責(zé)聲明:本網(wǎng)對文中陳述、觀點判斷保持中立,不對所包含內(nèi)容的準(zhǔn)確性、可靠性或完整性提供任何明示或暗示的保證。請讀者僅作參考,并請自行承擔(dān)全部責(zé)任。 本網(wǎng)站轉(zhuǎn)載圖片、文字之類版權(quán)申明,本網(wǎng)站無法鑒別所上傳圖片或文字的知識版權(quán),如果侵犯,請及時通知我們,本網(wǎng)站將在第一時間及時刪除。