- +1
AI中場時刻②|大模型進化放緩,AI如何穿越“徘徊期”?
AI 的能力發(fā)展到什么程度了?這是一個非常實用的問題。
2024 年春節(jié),OpenAI 推出文生視頻模型 Sora,足引起一場革命;2025 年春節(jié)期間,DeepSeek 引發(fā)廣泛關注。誰又能預料 2026 年春節(jié),AI 領域還會推出怎樣的“年貨級”新角色?你得有所準備。
硅谷風險投資機構(gòu) a16z 發(fā)布的 2025 年消費者 AI 報告總結(jié)道,對于各大AI Lab來說,今年是面向消費者推出產(chǎn)品的大年。比方說,OpenAI 發(fā)布了數(shù)十項 AI 功能,包括 GPT-4o 圖像處理模型、獨立 App Sora 以及群聊功能,谷歌推出圖像處理模型 Nano Banana 和視頻生成模型 Veo,其它實驗室也都發(fā)布了涵蓋聊天、編程、搜索、圖像生成等領域的多種工具。結(jié)果如何?a16z 評價道:“喜憂參半”。
單從 Sora App 的命運便能看出來,哪怕是關注度多如 OpenAI 推出的 AI 產(chǎn)品,也如同一場大雨,雨落到地上的多,存到罐子里的卻少。Sora 的全球下載量超過 1200 萬次,但據(jù) SensorTower 估計,其 30 天留存率低于 8%。
2025年,AI 瀏覽器被視為“AI時代的第一入口”,成了兵家必爭之地。Perlexity推出Comet、OpenAI有Atlas,谷歌把AI功能嵌入chrome……不過,根據(jù)分析,還沒有一款AI瀏覽器的市占率超過1%。同時,2025被宣傳為“Agent元年”,根據(jù)麥肯錫報告,智能體在輿論和想象中潛力巨大,但現(xiàn)實落地總體還偏早期:62% 受訪者所在公司至少在“實驗”智能體,但是真正在任何單一業(yè)務職能中“規(guī)?;褂谩敝悄荏w的比例都不超過 10%。麥肯錫總結(jié)道:“要做好智能體應用,需要付出艱苦努力?!?/p>
為何各家開始在產(chǎn)品賽道上卷生卷死?背后是 AI 模型能力的徘徊。低垂的果實已經(jīng)摘完了,通往 AGI 的前路開始泥濘。
AI 已經(jīng)很強了,只是升級的速度變慢了
通過分析259個AI大模型在十余項任務上的表現(xiàn),我們發(fā)現(xiàn),至少在做題方面,AI 已經(jīng)拳打腳踢相當一部分人。無論是頂尖的高中生數(shù)學競賽,還是研究生級別的物理、生物和化學問題(直接搜索是搜不到答案的,得進行科學推理),或是看圖回答問題,AI 都做得很好,超越了人類專家的平均水準。
而一些相對簡單、抽象的真實問題,比方說扮演一位電信技術支持的客服,跟客戶協(xié)調(diào)解決諸如“為啥我連不上網(wǎng)?”之類的問題,AI 也已經(jīng)很能頂事兒了。

從時間維度上看,AI 大模型在大部分任務上的能力躍升集中在 2024 年下半年至 2025 年年初,是AI 大模型在2025這一年徘徊的一個注腳。
有幾道人類的護城河,AI 尚未突破(真是松一口氣)。科學編程能力,不及格;“人類的最后一場考試”(HLE,涵蓋了數(shù)學、科學以及人文社科領域有標準答案的難題),AI 沒有通過;至于研究級的物理推理能力(約等于一名優(yōu)秀的物理研究生獨立完成研究的水平),AI 還沒摸著邊。也就是說,在邏輯推理方面,AI 還沒能超越最聰明的那一撥人類。
谷歌的 Gemini 3 在 2025 年的 AI 競賽中表現(xiàn)亮眼,在多個高難度任務上拔得頭籌,也為它贏得了更多用戶——Gemini 的 Pro 訂閱用戶同比增長近 300%,而 ChatGPT 的增幅為 155%。
AI 的能力會此消彼長嗎?
AI 在不同方面的能力會有一點起伏。以 OpenAI 推出的 GPT-5.2 和 GPT-5.1 為例,提高了編程能力,長文本推理能力就下去了一點。這似乎很好理解,人的特質(zhì)也常出現(xiàn)左右互搏的情況,理智與情感、創(chuàng)造力和服從度,很難兩全。難道 AI 也會出現(xiàn)這種情況?
令人驚訝的是,綜合 artificialanalysis 上 259 個模型在 12 項任務上的表現(xiàn),從總體上看,AI 沒有哪項能力是真的互斥的。

數(shù)值越高,指標間關聯(lián)度越高,反之越低
絕大多數(shù)指標之間都呈現(xiàn)出正相關,這意味著目前的頂尖模型正在走向“全能化”——通常一個模型在數(shù)學上變強了,它的編程和推理能力也會跟著變強,也就是我們常說的“Scaling Law”帶來的普遍提升。
不過從中我們也能找出幾組很不熟的指標。比方說研究級物理推理能力就跟“模擬客服解決問題”的能力基本毫不相干。這也和前OpenAI核心研究員、CoT(思維鏈)作者Jason Wei 的觀點相似,不同任務提升的速度是不同的。在單項任務上的能力提升不一定會泛化到其他任務上。

Jason Wei在斯坦福大學AI Club的演講:AI并不是全知全能,AI在不同任務上的智能水平就像鋸齒一樣,有高有低
接下來,AI 要怎么發(fā)展?
世界上最聰明的那撥人對 AI 目前的水平并不滿意。不過,他們的方向不太一樣。
它怎么不能舉一反三呢?OpenAI 前首席科學家Ilya Sutskever認為大力出奇跡的路已經(jīng)走到盡頭了,“數(shù)據(jù)是有限的,而且各個組織已經(jīng)擁有大量的計算資源……所以我們又回到了研究時代”,而需要更多研究的方向就是讓模型像人類那樣學習,從少量的示例和信息中學習。
而李飛飛則想培養(yǎng) AI 的“空間智能”,簡單來說,像是一種空間上的直覺,人可以在半睡半醒間把咖啡倒進杯子里,消防員可以在濃煙彌漫的建筑中穿梭,瞬間判斷形勢;AI 不僅要能說能看,更要會行動、會創(chuàng)造。
Demis Hassabis 和吳恩達仍然相信規(guī)模,前者認為必須將系統(tǒng)的規(guī)模擴展推向極致,后者提出多個智能體一起運行可以擴大規(guī)模。

無論如何,AI 未來還是要追在人類屁股后面攆,以追趕人類為樂。人該怎么辦呢?圖靈獎得主 Yann LeCun 建議,應該學習那些“保質(zhì)期長”的知識,以及能讓你“學會如何學習”的東西。他補充道,保質(zhì)期長的東西,往往不是計算機科學。





- 報料熱線: 021-962866
- 報料郵箱: news@thepaper.cn
互聯(lián)網(wǎng)新聞信息服務許可證:31120170006
增值電信業(yè)務經(jīng)營許可證:滬B2-2017116
? 2014-2026 上海東方報業(yè)有限公司




