Kimi楊植麟：很多普遍使用的技術(shù)標準正成為Scaling的瓶頸

澎湃新聞記者喻琰

2026-03-18 12:19

來源：澎湃新聞

? 未來2% >

聽全文

楊植麟在2026GTC現(xiàn)場演講。圖片來源：月之暗面Kimi提供

在北京時間3月18日凌晨舉行的 2026英偉達GTC大會上，月之暗面 Kimi創(chuàng)始人楊植麟發(fā)表了主題為《How We Scaled Kimi K2.5》的演講，他指出，要推動大模型智能上限的持續(xù)突破，必須對優(yōu)化器、注意力機制及殘差連接等底層基石進行重構(gòu)。

今年 1 月底，月之暗面正式發(fā)布 Kimi K2.5 ，楊植麟在本次演講中首次系統(tǒng)性地披露了該模型背后的技術(shù)路線圖。他將 Kimi 的進化邏輯歸納為三個維度的共振：Token 效率、長上下文以及智能體集群（Agent Swarms）。

在楊植麟看來，當前的Scaling已經(jīng)不再是單純的資源堆砌，而是要在計算效率、長程記憶和自動化協(xié)作上同時尋找規(guī)模效應。如果能將這三個維度的技術(shù)增益相乘，模型將表現(xiàn)出遠超現(xiàn)狀的智能水平。

技術(shù)重構(gòu)是楊植麟本次演講的核心觀點。他認為，行業(yè)目前普遍使用的很多技術(shù)標準，本質(zhì)上是八九年前的產(chǎn)物，這些標準正逐漸成為Scaling的瓶頸。

自2014年以來，Adam優(yōu)化器（Adaptive Moment Estimation，自適應矩估計）一直被視為行業(yè)標配，但在超大規(guī)模訓練中，尋找更具Token（字符）效率的替代方案已成趨勢。Kimi團隊在實驗中驗證了Muon優(yōu)化器在提升Token效率方面的顯著潛力，但在將其擴展至萬億參數(shù)規(guī)模的K2模型訓練時，發(fā)現(xiàn)了Logits爆炸導致模型發(fā)散的穩(wěn)定性難題。

為此，團隊研發(fā)并開源了MuonClip優(yōu)化器，通過Newton-Schulz迭代并結(jié)合QK-Clip機制，在徹底解決Logits爆炸問題的同時，實現(xiàn)了2倍于傳統(tǒng)AdamW的計算效率。針對2017年誕生的全注意力機制（Full Attention），楊植麟展示了基于KDA（Kimi Delta Attention）的混合線性注意力架構(gòu)的 Kimi Linear，它挑戰(zhàn)了“所有層必須使用全注意力”的慣例，通過優(yōu)化遞歸存儲管理，在128K甚至1M的超長上下文中，將解碼速度提升了 5到6倍，且在不同長度的場景下均保持了優(yōu)異性能。

此外，針對已有十年歷史的殘差連接，Kimi引入了Attention Residuals方案，將傳統(tǒng)的固定加法累加替換為對前序?qū)虞敵龅腟oftmax注意力，解決了隱藏狀態(tài)隨深度增加而無限制增長、從而稀釋深層貢獻的頑疾，使每一層都能根據(jù)輸入內(nèi)容有選擇地聚合信息。這項工作引發(fā)了前OpenAI聯(lián)合創(chuàng)始人Karpathy的思考，直言我們對《Attention is All You Need》這篇Transformer開山之作的理解還是不夠。

楊植麟在2026GTC現(xiàn)場演講。圖片來源：月之暗面Kimi提供

在跨模態(tài)研究方面，楊植麟分享了一個重要的觀察：在原生的視覺－文本聯(lián)合預訓練中，視覺強化學習（Vision RL）能夠顯著反哺文本性能。消融實驗數(shù)據(jù)顯示，經(jīng)過視覺強化學習訓練后，模型在MMLU-Pro（多領域知識理解專業(yè)版）和GPQA-Diamond（通用問題回答鉆石版）等純文本基準測試上的表現(xiàn)提升了約2.1%。這意味著空間推理與視覺邏輯的增強，可以有效轉(zhuǎn)化為更深層的通用認知能力。

演講的最后，楊植麟深入探討了智能體集群的擴展。他認為未來的智能形態(tài)將從單智能體向動態(tài)生成的集群進化。Kimi K2.5引入的Orchestrator機制，能夠?qū)碗s的長任務拆解給數(shù)十個子Agent并行處理。為了防止協(xié)作過程中出現(xiàn)單點依賴導致的“串行塌縮”，團隊設計了全新的并行RL獎勵函數(shù)，激勵模型真正學會任務分解與并行執(zhí)行。

楊植麟在總結(jié)中談到了AI研究范式的轉(zhuǎn)變。他提到，十年前的研究往往更看重新想法的發(fā)表，但受限于算力資源，很難通過不同規(guī)模的實驗來驗證這些想法。而現(xiàn)在由于擁有了足夠的資源和“縮放階梯（Scaling Ladder）”，研究者可以進行嚴謹?shù)囊?guī)?；瘜嶒?，從而得出更自信、更可靠的結(jié)論。這也是為什么Kimi能夠從那些看似“古老”的技術(shù)中挖掘出新突破的原因。Kimi將繼續(xù)堅持開源路徑，將MuonClip優(yōu)化器、Kimi Linear（混合線性注意力架構(gòu)）和Attention Residuals （注意力殘差連接）等底層創(chuàng)新貢獻給開源社區(qū)。

責任編輯：宦艷紅

圖片編輯：沈軻

澎湃新聞報料：021-962866

澎湃新聞，未經(jīng)授權(quán)不得轉(zhuǎn)載

我要舉報

#Kimi #2026GTC