- +1
Kimi楊植麟:很多普遍使用的技術(shù)標準正成為Scaling的瓶頸

楊植麟在2026GTC現(xiàn)場演講。圖片來源:月之暗面Kimi提供
在北京時間3月18日凌晨舉行的 2026英偉達GTC大會上,月之暗面 Kimi創(chuàng)始人楊植麟發(fā)表了主題為《How We Scaled Kimi K2.5》的演講,他指出,要推動大模型智能上限的持續(xù)突破,必須對優(yōu)化器、注意力機制及殘差連接等底層基石進行重構(gòu)。
今年 1 月底,月之暗面正式發(fā)布 Kimi K2.5 ,楊植麟在本次演講中首次系統(tǒng)性地披露了該模型背后的技術(shù)路線圖。他將 Kimi 的進化邏輯歸納為三個維度的共振:Token 效率、長上下文以及智能體集群(Agent Swarms)。
在楊植麟看來,當前的Scaling已經(jīng)不再是單純的資源堆砌,而是要在計算效率、長程記憶和自動化協(xié)作上同時尋找規(guī)模效應。如果能將這三個維度的技術(shù)增益相乘,模型將表現(xiàn)出遠超現(xiàn)狀的智能水平。
技術(shù)重構(gòu)是楊植麟本次演講的核心觀點。他認為,行業(yè)目前普遍使用的很多技術(shù)標準,本質(zhì)上是八九年前的產(chǎn)物,這些標準正逐漸成為Scaling的瓶頸。
自2014年以來,Adam優(yōu)化器(Adaptive Moment Estimation,自適應矩估計)一直被視為行業(yè)標配,但在超大規(guī)模訓練中,尋找更具Token(字符)效率的替代方案已成趨勢。Kimi團隊在實驗中驗證了Muon優(yōu)化器在提升Token效率方面的顯著潛力,但在將其擴展至萬億參數(shù)規(guī)模的K2模型訓練時,發(fā)現(xiàn)了Logits爆炸導致模型發(fā)散的穩(wěn)定性難題。
為此,團隊研發(fā)并開源了MuonClip優(yōu)化器,通過Newton-Schulz迭代并結(jié)合QK-Clip機制,在徹底解決Logits爆炸問題的同時,實現(xiàn)了2倍于傳統(tǒng)AdamW的計算效率。 針對2017年誕生的全注意力機制(Full Attention),楊植麟展示了基于KDA(Kimi Delta Attention)的混合線性注意力架構(gòu)的 Kimi Linear,它挑戰(zhàn)了“所有層必須使用全注意力”的慣例,通過優(yōu)化遞歸存儲管理,在128K甚至1M的超長上下文中,將解碼速度提升了 5到6倍,且在不同長度的場景下均保持了優(yōu)異性能。
此外,針對已有十年歷史的殘差連接,Kimi引入了Attention Residuals方案,將傳統(tǒng)的固定加法累加替換為對前序?qū)虞敵龅腟oftmax注意力,解決了隱藏狀態(tài)隨深度增加而無限制增長、從而稀釋深層貢獻的頑疾,使每一層都能根據(jù)輸入內(nèi)容有選擇地聚合信息。這項工作引發(fā)了前OpenAI聯(lián)合創(chuàng)始人Karpathy的思考,直言我們對《Attention is All You Need》這篇Transformer開山之作的理解還是不夠。

楊植麟在2026GTC現(xiàn)場演講。圖片來源:月之暗面Kimi提供
在跨模態(tài)研究方面,楊植麟分享了一個重要的觀察:在原生的視覺-文本聯(lián)合預訓練中,視覺強化學習(Vision RL)能夠顯著反哺文本性能。消融實驗數(shù)據(jù)顯示,經(jīng)過視覺強化學習訓練后,模型在MMLU-Pro(多領域知識理解專業(yè)版)和GPQA-Diamond(通用問題回答鉆石版)等純文本基準測試上的表現(xiàn)提升了約2.1%。這意味著空間推理與視覺邏輯的增強,可以有效轉(zhuǎn)化為更深層的通用認知能力。
演講的最后,楊植麟深入探討了智能體集群的擴展。他認為未來的智能形態(tài)將從單智能體向動態(tài)生成的集群進化。Kimi K2.5引入的Orchestrator機制,能夠?qū)碗s的長任務拆解給數(shù)十個子Agent并行處理。為了防止協(xié)作過程中出現(xiàn)單點依賴導致的“串行塌縮”,團隊設計了全新的并行RL獎勵函數(shù),激勵模型真正學會任務分解與并行執(zhí)行。
楊植麟在總結(jié)中談到了AI研究范式的轉(zhuǎn)變。他提到,十年前的研究往往更看重新想法的發(fā)表,但受限于算力資源,很難通過不同規(guī)模的實驗來驗證這些想法。而現(xiàn)在由于擁有了足夠的資源和“縮放階梯(Scaling Ladder)”,研究者可以進行嚴謹?shù)囊?guī)?;瘜嶒?,從而得出更自信、更可靠的結(jié)論。這也是為什么Kimi能夠從那些看似“古老”的技術(shù)中挖掘出新突破的原因。Kimi將繼續(xù)堅持開源路徑,將MuonClip優(yōu)化器、Kimi Linear(混合線性注意力架構(gòu))和Attention Residuals (注意力殘差連接)等底層創(chuàng)新貢獻給開源社區(qū)。





- 報料熱線: 021-962866
- 報料郵箱: news@thepaper.cn
互聯(lián)網(wǎng)新聞信息服務許可證:31120170006
增值電信業(yè)務經(jīng)營許可證:滬B2-2017116
? 2014-2026 上海東方報業(yè)有限公司




