Kimi楊植麟：很多普遍使用的技術(shù)標(biāo)準(zhǔn)正成為Scaling的瓶頸

澎湃新聞?dòng)浾?喻琰

2026-03-18 12:19

來(lái)源：澎湃新聞

? 未來(lái)2% >

聽(tīng)全文

楊植麟在2026GTC現(xiàn)場(chǎng)演講。圖片來(lái)源：月之暗面Kimi提供

在北京時(shí)間3月18日凌晨舉行的 2026英偉達(dá)GTC大會(huì)上，月之暗面 Kimi創(chuàng)始人楊植麟發(fā)表了主題為《How We Scaled Kimi K2.5》的演講，他指出，要推動(dòng)大模型智能上限的持續(xù)突破，必須對(duì)優(yōu)化器、注意力機(jī)制及殘差連接等底層基石進(jìn)行重構(gòu)。

今年 1 月底，月之暗面正式發(fā)布 Kimi K2.5 ，楊植麟在本次演講中首次系統(tǒng)性地披露了該模型背后的技術(shù)路線圖。他將 Kimi 的進(jìn)化邏輯歸納為三個(gè)維度的共振：Token 效率、長(zhǎng)上下文以及智能體集群（Agent Swarms）。

在楊植麟看來(lái)，當(dāng)前的Scaling已經(jīng)不再是單純的資源堆砌，而是要在計(jì)算效率、長(zhǎng)程記憶和自動(dòng)化協(xié)作上同時(shí)尋找規(guī)模效應(yīng)。如果能將這三個(gè)維度的技術(shù)增益相乘，模型將表現(xiàn)出遠(yuǎn)超現(xiàn)狀的智能水平。

技術(shù)重構(gòu)是楊植麟本次演講的核心觀點(diǎn)。他認(rèn)為，行業(yè)目前普遍使用的很多技術(shù)標(biāo)準(zhǔn)，本質(zhì)上是八九年前的產(chǎn)物，這些標(biāo)準(zhǔn)正逐漸成為Scaling的瓶頸。

自2014年以來(lái)，Adam優(yōu)化器（Adaptive Moment Estimation，自適應(yīng)矩估計(jì)）一直被視為行業(yè)標(biāo)配，但在超大規(guī)模訓(xùn)練中，尋找更具Token（字符）效率的替代方案已成趨勢(shì)。Kimi團(tuán)隊(duì)在實(shí)驗(yàn)中驗(yàn)證了Muon優(yōu)化器在提升Token效率方面的顯著潛力，但在將其擴(kuò)展至萬(wàn)億參數(shù)規(guī)模的K2模型訓(xùn)練時(shí)，發(fā)現(xiàn)了Logits爆炸導(dǎo)致模型發(fā)散的穩(wěn)定性難題。

為此，團(tuán)隊(duì)研發(fā)并開(kāi)源了MuonClip優(yōu)化器，通過(guò)Newton-Schulz迭代并結(jié)合QK-Clip機(jī)制，在徹底解決Logits爆炸問(wèn)題的同時(shí)，實(shí)現(xiàn)了2倍于傳統(tǒng)AdamW的計(jì)算效率。針對(duì)2017年誕生的全注意力機(jī)制（Full Attention），楊植麟展示了基于KDA（Kimi Delta Attention）的混合線性注意力架構(gòu)的 Kimi Linear，它挑戰(zhàn)了“所有層必須使用全注意力”的慣例，通過(guò)優(yōu)化遞歸存儲(chǔ)管理，在128K甚至1M的超長(zhǎng)上下文中，將解碼速度提升了 5到6倍，且在不同長(zhǎng)度的場(chǎng)景下均保持了優(yōu)異性能。

此外，針對(duì)已有十年歷史的殘差連接，Kimi引入了Attention Residuals方案，將傳統(tǒng)的固定加法累加替換為對(duì)前序?qū)虞敵龅腟oftmax注意力，解決了隱藏狀態(tài)隨深度增加而無(wú)限制增長(zhǎng)、從而稀釋深層貢獻(xiàn)的頑疾，使每一層都能根據(jù)輸入內(nèi)容有選擇地聚合信息。這項(xiàng)工作引發(fā)了前OpenAI聯(lián)合創(chuàng)始人Karpathy的思考，直言我們對(duì)《Attention is All You Need》這篇Transformer開(kāi)山之作的理解還是不夠。

楊植麟在2026GTC現(xiàn)場(chǎng)演講。圖片來(lái)源：月之暗面Kimi提供

在跨模態(tài)研究方面，楊植麟分享了一個(gè)重要的觀察：在原生的視覺(jué)－文本聯(lián)合預(yù)訓(xùn)練中，視覺(jué)強(qiáng)化學(xué)習(xí)（Vision RL）能夠顯著反哺文本性能。消融實(shí)驗(yàn)數(shù)據(jù)顯示，經(jīng)過(guò)視覺(jué)強(qiáng)化學(xué)習(xí)訓(xùn)練后，模型在MMLU-Pro（多領(lǐng)域知識(shí)理解專(zhuān)業(yè)版）和GPQA-Diamond（通用問(wèn)題回答鉆石版）等純文本基準(zhǔn)測(cè)試上的表現(xiàn)提升了約2.1%。這意味著空間推理與視覺(jué)邏輯的增強(qiáng)，可以有效轉(zhuǎn)化為更深層的通用認(rèn)知能力。

演講的最后，楊植麟深入探討了智能體集群的擴(kuò)展。他認(rèn)為未來(lái)的智能形態(tài)將從單智能體向動(dòng)態(tài)生成的集群進(jìn)化。Kimi K2.5引入的Orchestrator機(jī)制，能夠?qū)?fù)雜的長(zhǎng)任務(wù)拆解給數(shù)十個(gè)子Agent并行處理。為了防止協(xié)作過(guò)程中出現(xiàn)單點(diǎn)依賴導(dǎo)致的“串行塌縮”，團(tuán)隊(duì)設(shè)計(jì)了全新的并行RL獎(jiǎng)勵(lì)函數(shù)，激勵(lì)模型真正學(xué)會(huì)任務(wù)分解與并行執(zhí)行。

楊植麟在總結(jié)中談到了AI研究范式的轉(zhuǎn)變。他提到，十年前的研究往往更看重新想法的發(fā)表，但受限于算力資源，很難通過(guò)不同規(guī)模的實(shí)驗(yàn)來(lái)驗(yàn)證這些想法。而現(xiàn)在由于擁有了足夠的資源和“縮放階梯（Scaling Ladder）”，研究者可以進(jìn)行嚴(yán)謹(jǐn)?shù)囊?guī)模化實(shí)驗(yàn)，從而得出更自信、更可靠的結(jié)論。這也是為什么Kimi能夠從那些看似“古老”的技術(shù)中挖掘出新突破的原因。Kimi將繼續(xù)堅(jiān)持開(kāi)源路徑，將MuonClip優(yōu)化器、Kimi Linear（混合線性注意力架構(gòu)）和Attention Residuals （注意力殘差連接）等底層創(chuàng)新貢獻(xiàn)給開(kāi)源社區(qū)。

責(zé)任編輯：宦艷紅

圖片編輯：沈軻

澎湃新聞報(bào)料：021-962866

澎湃新聞，未經(jīng)授權(quán)不得轉(zhuǎn)載

我要舉報(bào)

#Kimi #2026GTC