欧美成人A片免费|日韩无码一级av|一级黄色大片在线播放|黄片视频在线观看无码|亚洲精品成人无码影视|婷婷五月天视频网站|日韩三级AV在线播放|姓爱av在线婷婷春色五月天|真人全黃色录像免费特黄片|日本无码黄在线观看下载

  • +1

Kimi楊植麟:很多普遍使用的技術(shù)標(biāo)準(zhǔn)正成為Scaling的瓶頸

澎湃新聞?dòng)浾?喻琰
2026-03-18 12:19
來(lái)源:澎湃新聞
? 未來(lái)2% >
聽(tīng)全文
字號(hào)

楊植麟在2026GTC現(xiàn)場(chǎng)演講。圖片來(lái)源:月之暗面Kimi提供

在北京時(shí)間3月18日凌晨舉行的 2026英偉達(dá)GTC大會(huì)上,月之暗面 Kimi創(chuàng)始人楊植麟發(fā)表了主題為《How We Scaled Kimi K2.5》的演講,他指出,要推動(dòng)大模型智能上限的持續(xù)突破,必須對(duì)優(yōu)化器、注意力機(jī)制及殘差連接等底層基石進(jìn)行重構(gòu)。

今年 1 月底,月之暗面正式發(fā)布 Kimi K2.5 ,楊植麟在本次演講中首次系統(tǒng)性地披露了該模型背后的技術(shù)路線圖。他將 Kimi 的進(jìn)化邏輯歸納為三個(gè)維度的共振:Token 效率、長(zhǎng)上下文以及智能體集群(Agent Swarms)。

在楊植麟看來(lái),當(dāng)前的Scaling已經(jīng)不再是單純的資源堆砌,而是要在計(jì)算效率、長(zhǎng)程記憶和自動(dòng)化協(xié)作上同時(shí)尋找規(guī)模效應(yīng)。如果能將這三個(gè)維度的技術(shù)增益相乘,模型將表現(xiàn)出遠(yuǎn)超現(xiàn)狀的智能水平。

技術(shù)重構(gòu)是楊植麟本次演講的核心觀點(diǎn)。他認(rèn)為,行業(yè)目前普遍使用的很多技術(shù)標(biāo)準(zhǔn),本質(zhì)上是八九年前的產(chǎn)物,這些標(biāo)準(zhǔn)正逐漸成為Scaling的瓶頸。

自2014年以來(lái),Adam優(yōu)化器(Adaptive Moment Estimation,自適應(yīng)矩估計(jì))一直被視為行業(yè)標(biāo)配,但在超大規(guī)模訓(xùn)練中,尋找更具Token(字符)效率的替代方案已成趨勢(shì)。Kimi團(tuán)隊(duì)在實(shí)驗(yàn)中驗(yàn)證了Muon優(yōu)化器在提升Token效率方面的顯著潛力,但在將其擴(kuò)展至萬(wàn)億參數(shù)規(guī)模的K2模型訓(xùn)練時(shí),發(fā)現(xiàn)了Logits爆炸導(dǎo)致模型發(fā)散的穩(wěn)定性難題。

為此,團(tuán)隊(duì)研發(fā)并開(kāi)源了MuonClip優(yōu)化器,通過(guò)Newton-Schulz迭代并結(jié)合QK-Clip機(jī)制,在徹底解決Logits爆炸問(wèn)題的同時(shí),實(shí)現(xiàn)了2倍于傳統(tǒng)AdamW的計(jì)算效率。 針對(duì)2017年誕生的全注意力機(jī)制(Full Attention),楊植麟展示了基于KDA(Kimi Delta Attention)的混合線性注意力架構(gòu)的 Kimi Linear,它挑戰(zhàn)了“所有層必須使用全注意力”的慣例,通過(guò)優(yōu)化遞歸存儲(chǔ)管理,在128K甚至1M的超長(zhǎng)上下文中,將解碼速度提升了 5到6倍,且在不同長(zhǎng)度的場(chǎng)景下均保持了優(yōu)異性能。

此外,針對(duì)已有十年歷史的殘差連接,Kimi引入了Attention Residuals方案,將傳統(tǒng)的固定加法累加替換為對(duì)前序?qū)虞敵龅腟oftmax注意力,解決了隱藏狀態(tài)隨深度增加而無(wú)限制增長(zhǎng)、從而稀釋深層貢獻(xiàn)的頑疾,使每一層都能根據(jù)輸入內(nèi)容有選擇地聚合信息。這項(xiàng)工作引發(fā)了前OpenAI聯(lián)合創(chuàng)始人Karpathy的思考,直言我們對(duì)《Attention is All You Need》這篇Transformer開(kāi)山之作的理解還是不夠。

楊植麟在2026GTC現(xiàn)場(chǎng)演講。圖片來(lái)源:月之暗面Kimi提供

在跨模態(tài)研究方面,楊植麟分享了一個(gè)重要的觀察:在原生的視覺(jué)-文本聯(lián)合預(yù)訓(xùn)練中,視覺(jué)強(qiáng)化學(xué)習(xí)(Vision RL)能夠顯著反哺文本性能。消融實(shí)驗(yàn)數(shù)據(jù)顯示,經(jīng)過(guò)視覺(jué)強(qiáng)化學(xué)習(xí)訓(xùn)練后,模型在MMLU-Pro(多領(lǐng)域知識(shí)理解專(zhuān)業(yè)版)和GPQA-Diamond(通用問(wèn)題回答鉆石版)等純文本基準(zhǔn)測(cè)試上的表現(xiàn)提升了約2.1%。這意味著空間推理與視覺(jué)邏輯的增強(qiáng),可以有效轉(zhuǎn)化為更深層的通用認(rèn)知能力。

演講的最后,楊植麟深入探討了智能體集群的擴(kuò)展。他認(rèn)為未來(lái)的智能形態(tài)將從單智能體向動(dòng)態(tài)生成的集群進(jìn)化。Kimi K2.5引入的Orchestrator機(jī)制,能夠?qū)?fù)雜的長(zhǎng)任務(wù)拆解給數(shù)十個(gè)子Agent并行處理。為了防止協(xié)作過(guò)程中出現(xiàn)單點(diǎn)依賴導(dǎo)致的“串行塌縮”,團(tuán)隊(duì)設(shè)計(jì)了全新的并行RL獎(jiǎng)勵(lì)函數(shù),激勵(lì)模型真正學(xué)會(huì)任務(wù)分解與并行執(zhí)行。

楊植麟在總結(jié)中談到了AI研究范式的轉(zhuǎn)變。他提到,十年前的研究往往更看重新想法的發(fā)表,但受限于算力資源,很難通過(guò)不同規(guī)模的實(shí)驗(yàn)來(lái)驗(yàn)證這些想法。而現(xiàn)在由于擁有了足夠的資源和“縮放階梯(Scaling Ladder)”,研究者可以進(jìn)行嚴(yán)謹(jǐn)?shù)囊?guī)模化實(shí)驗(yàn),從而得出更自信、更可靠的結(jié)論。這也是為什么Kimi能夠從那些看似“古老”的技術(shù)中挖掘出新突破的原因。Kimi將繼續(xù)堅(jiān)持開(kāi)源路徑,將MuonClip優(yōu)化器、Kimi Linear(混合線性注意力架構(gòu))和Attention Residuals (注意力殘差連接)等底層創(chuàng)新貢獻(xiàn)給開(kāi)源社區(qū)。

    責(zé)任編輯:宦艷紅
    圖片編輯:沈軻
    澎湃新聞報(bào)料:021-962866
    澎湃新聞,未經(jīng)授權(quán)不得轉(zhuǎn)載
            查看更多

            掃碼下載澎湃新聞客戶端

            滬ICP備14003370號(hào)

            滬公網(wǎng)安備31010602000299號(hào)

            互聯(lián)網(wǎng)新聞信息服務(wù)許可證:31120170006

            增值電信業(yè)務(wù)經(jīng)營(yíng)許可證:滬B2-2017116

            ? 2014-2026 上海東方報(bào)業(yè)有限公司