欧美成人A片免费|日韩无码一级av|一级黄色大片在线播放|黄片视频在线观看无码|亚洲精品成人无码影视|婷婷五月天视频网站|日韩三级AV在线播放|姓爱av在线婷婷春色五月天|真人全黃色录像免费特黄片|日本无码黄在线观看下载

<del id="k00i0"><abbr id="k00i0"></abbr></del>

<cite id="k00i0"></cite>

<button id="k00i0"></button>

<button id="k00i0"></button>

<blockquote id="ycqq6"><pre id="ycqq6"></pre></blockquote>

<dfn id="ycqq6"><s id="ycqq6"></s></dfn>

<blockquote id="ycqq6"><pre id="ycqq6"></pre></blockquote>

<tr id="ycqq6"><menu id="ycqq6"></menu></tr>

<cite id="ycqq6"><s id="ycqq6"></s></cite>

<kbd id="ycqq6"><pre id="ycqq6"></pre></kbd>

下載客戶(hù)端

登錄

+1

行業(yè)標(biāo)準(zhǔn)過(guò)時(shí)了？楊植麟首次披露Kimi技術(shù)路徑

2026-03-19 15:47

來(lái)源：澎湃新聞·澎湃號(hào)·湃客

聽(tīng)全文

出品/未來(lái)科技界

作者/李彥

編輯/楊宇

大模型的底層架構(gòu)，過(guò)時(shí)了？

過(guò)去幾年，行業(yè)對(duì)“Scaling”的理解幾乎等同于算力堆砌與參數(shù)擴(kuò)張。但在今年的技術(shù)交流中，一個(gè)更清晰的共識(shí)正在形成：?jiǎn)渭円蕾?lài)資源線(xiàn)性投入，已經(jīng)難以持續(xù)推高模型能力的上限。如何在效率、結(jié)構(gòu)與系統(tǒng)協(xié)同中尋找新的“規(guī)模紅利”，成為新的命題。

北京時(shí)間3月18日凌晨，月之暗面創(chuàng)始人楊植麟在英偉達(dá) GTC 2026大會(huì)上首次系統(tǒng)披露了Kimi K2.5的技術(shù)路線(xiàn)圖，其核心指向“更有效率的規(guī)?；?。

他將Kimi的演進(jìn)總結(jié)為三個(gè)維度的協(xié)同：Token效率、長(zhǎng)上下文能力，以及智能體集群（Agent Swarms）。這三個(gè)方向并非獨(dú)立優(yōu)化，而是試圖形成乘數(shù)效應(yīng)——即通過(guò)效率提升降低計(jì)算成本，通過(guò)長(zhǎng)上下文提升推理能力，再通過(guò)多智能體協(xié)作放大任務(wù)處理能力，從而整體抬升模型智能水平。

這一技術(shù)路線(xiàn)的落腳點(diǎn)，在于對(duì)既有基礎(chǔ)架構(gòu)的重構(gòu)。

以?xún)?yōu)化器為例，自2014年以來(lái)，Adam系列幾乎成為行業(yè)標(biāo)準(zhǔn)。但在超大規(guī)模訓(xùn)練中，其Tokenl效率與穩(wěn)定性問(wèn)題逐漸暴露。Kimi團(tuán)隊(duì)在實(shí)踐中引入Muon優(yōu)化器，并進(jìn)一步開(kāi)發(fā)出MuonClip機(jī)制，通過(guò)數(shù)值穩(wěn)定性改進(jìn)解決Logits爆炸問(wèn)題，在效率上實(shí)現(xiàn)對(duì)AdamW約2倍的提升。這意味著，在相同算力條件下，模型可以完成更多有效訓(xùn)練，從源頭提升“性?xún)r(jià)比”。

針對(duì) 2017 年誕生的全注意力機(jī)制（Full Attention），楊植麟展示了基于KDA架構(gòu)的 Kimi Linear。這是一種混合線(xiàn)性注意力架構(gòu)，它挑戰(zhàn)了“所有層必須使用全注意力”的慣例，通過(guò)優(yōu)化遞歸存儲(chǔ)管理，在128K甚至1M的超長(zhǎng)上下文中，將解碼速度提升了5到6倍，且在不同長(zhǎng)度的場(chǎng)景下均保持了優(yōu)異性能。

與此同時(shí)，針對(duì)殘差連接這一長(zhǎng)期被忽視的基礎(chǔ)組件，Kimi提出了Attention Residuals方案。通過(guò)用注意力機(jī)制替代傳統(tǒng)的逐層累加，模型可以更有選擇性地利用歷史信息，從而避免深層網(wǎng)絡(luò)中信息被稀釋的問(wèn)題。這類(lèi)改進(jìn)雖然不如新模型架構(gòu)“顯眼”，卻直接作用于模型表達(dá)能力的上限。

如果說(shuō)上述優(yōu)化仍停留在單模型層面，那么Kimi更進(jìn)一步的探索，則指向“多模型協(xié)作”。

在演講中，楊植麟提出，未來(lái)的AI形態(tài)將不再是單一智能體，而是由多個(gè)Agent動(dòng)態(tài)組成的協(xié)作系統(tǒng)。Kimi K2.5中的Orchestrator機(jī)制，能夠?qū)?fù)雜任務(wù)拆解為多個(gè)子任務(wù)，并分配給不同Agent并行執(zhí)行。同時(shí)，通過(guò)專(zhuān)門(mén)設(shè)計(jì)的強(qiáng)化學(xué)習(xí)獎(jiǎng)勵(lì)函數(shù)，避免多Agent系統(tǒng)退化為串行流程，從而真正實(shí)現(xiàn)并行效率提升。

這一思路，實(shí)質(zhì)上將“Scaling”從單模型擴(kuò)展為“系統(tǒng)級(jí)Scaling”。當(dāng)任務(wù)復(fù)雜度不斷提高，僅依賴(lài)單一模型能力已難以覆蓋全部場(chǎng)景，分布式智能體協(xié)作可能成為新的主流范式。

此外，Kimi在跨模態(tài)方向上的實(shí)驗(yàn)也提供了一個(gè)值得注意的信號(hào)：視覺(jué)強(qiáng)化學(xué)習(xí)不僅提升視覺(jué)能力，還能夠反向增強(qiáng)文本推理能力。在相關(guān)基準(zhǔn)測(cè)試中，這種訓(xùn)練方式帶來(lái)了約2.1%的文本性能提升。這表明，不同模態(tài)之間的能力并非孤立，而是存在可以被利用的遷移關(guān)系。

從更宏觀的角度看，這場(chǎng)演講所傳遞的信息，或許比具體技術(shù)細(xì)節(jié)更重要。

一方面，大模型的發(fā)展正在從“資源驅(qū)動(dòng)”轉(zhuǎn)向“效率驅(qū)動(dòng)”。當(dāng)算力供給逐漸成為瓶頸，誰(shuí)能在單位算力中挖掘出更高價(jià)值，誰(shuí)就擁有更強(qiáng)的競(jìng)爭(zhēng)力。

另一方面，AI的競(jìng)爭(zhēng)邊界也在外擴(kuò)。從模型本身，到訓(xùn)練方法，再到多智能體系統(tǒng)，技術(shù)演進(jìn)正在向更復(fù)雜的系統(tǒng)工程演化。

楊植麟在最后提到，過(guò)去受限于算力，很多技術(shù)想法難以通過(guò)大規(guī)模實(shí)驗(yàn)驗(yàn)證，而現(xiàn)在，隨著“Scaling Ladder”的建立，研究者可以在不同規(guī)模上反復(fù)驗(yàn)證假設(shè)，從而讓那些曾被忽視的“舊技術(shù)”重新煥發(fā)生命力。

特別聲明

本文為澎湃號(hào)作者或機(jī)構(gòu)在澎湃新聞上傳并發(fā)布，僅代表該作者或機(jī)構(gòu)觀點(diǎn)，不代表澎湃新聞的觀點(diǎn)或立場(chǎng)，澎湃新聞僅提供信息發(fā)布平臺(tái)。申請(qǐng)澎湃號(hào)請(qǐng)用電腦訪(fǎng)問(wèn)http://renzheng.thepaper.cn。

+1

收藏

我要舉報(bào)

#月之暗面 #Kimi #AI

查看更多

掃碼下載澎湃新聞客戶(hù)端

關(guān)于澎湃

聯(lián)系我們

澎湃矩陣

澎湃新聞微博
澎湃新聞公眾號(hào)
澎湃新聞抖音號(hào)
派生萬(wàn)物開(kāi)放平臺(tái)
IP SHANGHAI
SIXTH TONE

新聞報(bào)料

報(bào)料熱線(xiàn): 021-962866
報(bào)料郵箱: news@thepaper.cn

滬ICP備14003370號(hào)

滬公網(wǎng)安備31010602000299號(hào)

互聯(lián)網(wǎng)新聞信息服務(wù)許可證：31120170006

增值電信業(yè)務(wù)經(jīng)營(yíng)許可證：滬B2-2017116

? 2014-2026 上海東方報(bào)業(yè)有限公司

反饋

<strong id="ieo4g"></strong>

<kbd id="ieo4g"><pre id="ieo4g"></pre></kbd>