下載客戶端

登錄

萬億美元大餅背后，英偉達也開始焦慮了

2026-03-18 13:26

來源：澎湃新聞·澎湃號·湃客

聽全文

推理領(lǐng)域有沒有CUDA護城河？

文｜任曉漁周享玥

編｜徐鑫

“到2027年，市場對Blackwell和Vera Rubin系統(tǒng)的訂單需求將帶來至少1 萬億美元的營收。”

又到一年GTC。今年的“科技春晚”上，身著皮衣的老黃又發(fā)了新的“核彈”，同時也帶來了一個前所未有的爆炸性業(yè)績預(yù)測。這個驚人的數(shù)字，延續(xù)了黃仁勛一貫的對AI時代基礎(chǔ)設(shè)施持續(xù)增長的樂觀和信心，也是在向市場宣告英偉達的增長故事遠(yuǎn)未結(jié)束。

但資本市場的反應(yīng)略顯冷淡。英偉達股價應(yīng)聲跳漲4.3%后又下跌，最終收漲1.2%。前所未有的業(yè)績預(yù)測，并沒有催化成市場的熱情。

癥結(jié)在于，在正在爆發(fā)的推理算力市場上，游戲規(guī)則正在起變化。低延遲、高能效比和應(yīng)用成本正取代高性能、高吞吐、大內(nèi)存、高帶寬等指標(biāo)，成為主導(dǎo)算力市場的核心因素。

結(jié)構(gòu)性巨變下，過去三年里統(tǒng)治AI算力的絕對王者——英偉達，正在遭遇前所未有的離心力。除了傳統(tǒng)芯片廠商，英偉達的一眾傳統(tǒng)大客戶如亞馬遜、Meta甚至OpenAI都在加速自研芯片進程。同時，中國市場是推理需求的大戶，目前國產(chǎn)算力的推理成本也極具競爭力。

為應(yīng)對前所未有的推理焦慮，英偉達在今年GTC大會發(fā)布了一系列新品來適應(yīng)推理需求，并用AI工廠的敘事來重塑自身護城河。不過，當(dāng)下外界仍然在觀察和觀望這些動向的效果。

可以想見的是，這場圍繞著護城河和壁壘的保護戰(zhàn)，才剛剛打響。

推理時代的“離心”焦慮

英偉達正遭遇一場巨大的“離心運動”。多路玩家爭搶推理市場形成強大外向拉力，正沖擊這家巨頭在訓(xùn)練市場的統(tǒng)治力。

源頭在于，AI產(chǎn)業(yè)正在發(fā)生巨變，推理市場正超越訓(xùn)練市場，成為AI算力的主戰(zhàn)場。

正如老黃自己在今年的GTC大會演講中的斷言，“推理拐點已至”。這是一個正在爆發(fā)中的巨大市場。IDC預(yù)測，到2027年，中國推理算力占整體算力的比例將突破 70%，在全球市場，智能體使用量將增長10倍，推理需求將增長1000倍。Deloitte也在一份報告中指出，2026年推理工作負(fù)載已占全部AI算力三分之二，而2023年的三分之一到2025年的一半，實現(xiàn)了快速躍升。

但這個高潛爆發(fā)市場，推理任務(wù)對算力的要求與訓(xùn)練階段存在根本性差異。

RISC架構(gòu)奠基人David Patterson與Google DeepMind高級工程師馬曉宇今年年初在一篇論文中提到，訓(xùn)練階段需要大規(guī)模并行計算來處理海量數(shù)據(jù)。如單次GPT-4級別的訓(xùn)練需要25,000張A100 GPU連續(xù)運行90天，是比拼峰值算力與資金的“軍備競賽”。

但推理階段的邏輯完全不同，它本質(zhì)是順序化的自回歸過程，每次只能生成一個token，模型參數(shù)需要頻繁從GPU顯存加載到計算單元，可用內(nèi)存帶寬才是token生成速度的決定因素，這使得內(nèi)存帶寬和端到端延遲成為核心瓶頸。

另外，在成本結(jié)構(gòu)上，訓(xùn)練時代是“一次性爆發(fā)”模式，推理則是持續(xù)性失血。每天數(shù)十億次請求下，AI應(yīng)用廠商們會十分重視成本控制，“每瓦特每美元的token產(chǎn)出”關(guān)乎AI應(yīng)用的落地。

針對內(nèi)存帶寬和端到端延遲及成本功耗問題，業(yè)界有共識，定制芯片可以針對特定任務(wù)做優(yōu)化，相比通用GPU有更好的表現(xiàn)。

目前，有多股力量都在進軍推理算力市場。

傳統(tǒng)的芯片廠商們?nèi)鏏MD和Intel都沒有缺席，它們早已看中了推理市場的結(jié)構(gòu)性增長機會。其中，AMD憑借MI350系列（含MI355X）的強大內(nèi)存和推理性能，在總擁有成本上形成優(yōu)勢。權(quán)威供應(yīng)鏈統(tǒng)計顯示，Meta在2025年已采購17.3萬片MI300系列芯片（后續(xù)將大規(guī)模轉(zhuǎn)向MI350），微軟采購9.6萬片。Oracle也有最多部署13.1萬顆MI355X的大單承諾。同時，Intel的Gaudi 3加速器正在企業(yè)級和云端推理市場快速突圍。

頭部云廠商此前是英偉達數(shù)據(jù)中心業(yè)務(wù)的主要收入貢獻者，但在成本控制與供應(yīng)鏈自主的考量下，正大力開啟芯片自研動作。對這些大廠而言，在每天數(shù)十億次推理請求的龐大規(guī)模下，自研成本更低的定制芯片不僅能每年節(jié)省數(shù)十億美元，還能帶來關(guān)鍵的供應(yīng)鏈靈活性。

目前，從谷歌到亞馬遜都已與博通深度合作，完成推理芯片的設(shè)計和量產(chǎn)。谷歌的TPU經(jīng)過多次迭代，已獲得Anthropic（部署超100萬顆）和Meta（2026年2月簽署數(shù)十億美元多年期租用協(xié)議）的訂單。而亞馬遜的Trainium獲得OpenAI 2GW容量的訂單，Anthropic也向Amazon伸出了橄欖枝。Meta自研的MTIA系列（含MTIA 300及后續(xù)版本）已部署數(shù)十萬顆芯片，全面支撐全平臺推薦系統(tǒng)推理。

與此同時，一些專業(yè)化推理芯片公司也在加速發(fā)力這一市場。例如已被英偉達2025年底收購整合的Groq，其LPU因首token延遲遠(yuǎn)低于GPU及定價更低等因素，在2025年曾吸引大量開發(fā)者與企業(yè)嘗試。

除了這些對手，中國作為推理市場大客戶，國內(nèi)的推理算力生態(tài)也在崛起。業(yè)界觀察到，目前國內(nèi)已經(jīng)從華為一家演化為百花齊放局面，市面上壁仞的推理專用芯片極具成本優(yōu)勢，沐曦、摩爾線程等廠商都已經(jīng)在AI智能體企業(yè)圈內(nèi)大受推薦。

多路對手圍攻之下，市場調(diào)研機構(gòu)認(rèn)為，AI服務(wù)器市場將從英偉達“一家獨大”走向“多元化競爭”。XPU（既非GPU也非CPU的專用加速器）的增長率將超過GPU。科技分析機構(gòu)byteiota綜合分析師觀點甚至指出，到2028年英偉達在推理市場份額將從80%大幅下降，被ASIC蠶食70～75%的生產(chǎn)推理工作負(fù)載。

“推理領(lǐng)域沒有 CUDA 護城河（There is no CUDA moat in inference）。”某種程度上這可能也是英偉達當(dāng)下最大的焦慮來源。

劍指萬億市場，英偉達的護城河守衛(wèi)戰(zhàn)

不過同時，英偉達也采取了一系列動作和舉措來應(yīng)對推理時代挑戰(zhàn)。GTC大會上，無論是老黃的演講內(nèi)容還是一系列新品和動作，都展示了英偉達對推理時代的野心。

兩個多小時的演講中，有人統(tǒng)計過，“訓(xùn)練（training）”被提到僅10余次，“推理（inference）”一詞則出現(xiàn)了將近40次。

他還用一萬億美金營收預(yù)測數(shù)據(jù)，來向外界表明，英偉達在推理時代將繼續(xù)保持存在感——

“去年此時我提到過，到2026年，Blackwell 和 Rubin 的需求規(guī)模有望達到5000億美元。今天，我想告訴大家：站在這里，到2027年，我們看到的高確定性需求，至少已經(jīng)是一萬億美元級別。而且我相信，真實需求還會更高”。

而這背后，老黃提到從2025年開始，英偉達就在全力押注推理能力，確保英偉達不僅擅長訓(xùn)練，也擅長訓(xùn)練后、擅長推理、擅長整個 AI 生命周期。

本次大會，英偉達展示了英偉達應(yīng)對推理時代挑戰(zhàn)的完整戰(zhàn)略布局，黃仁勛將推理過程拆解為“prefill”（預(yù)填充）和“decode”（解碼）兩個截然不同的階段，并為每個階段配備專門優(yōu)化的硬件架構(gòu)。

有人點評這是在通過對推理計算的本質(zhì)重新定義，來奪回英偉達在推理時代的話語權(quán)。

新一代旗艦 GPU——Vera Rubin GPU，專門負(fù)責(zé)“prefill”（預(yù)填充）階段，推理性能相比上一代提升3.3～5 倍，能將用戶請求轉(zhuǎn)化為 token。

Groq 3 LPX的加入，被視為英偉達補齊低時延推理短板的關(guān)鍵一步。2025年12月，英偉達斥資200億美元，通過非傳統(tǒng)收購整合了Groq的低延遲推理技術(shù)及核心團隊，這筆交易成為其歷史上規(guī)模最大的一筆。Groq主打極致低延遲與性能確定性，其創(chuàng)始人Jonathan Ross是谷歌TPU的關(guān)鍵推手。

Groq 3 LPU也是雙方合作后的首款產(chǎn)品，由三星代工，預(yù)計2026年Q3出貨。這是一款專為decode階段設(shè)計的芯片，它繞開了傳統(tǒng)GPU的HBM內(nèi)存瓶頸，首token延遲低于0.1毫秒，推理性能提升達35倍。黃仁勛還表示“GPU負(fù)責(zé)prefill、LPU負(fù)責(zé)decode”的分工是推理時代的最優(yōu)架構(gòu)。

智能體時代到來，英偉達還專為智能體工作流設(shè)計打造了全新CPU——Vera CPU，采用常用于手機、平板等的LPDDR5低功耗內(nèi)存，將定位從通用算力處理器轉(zhuǎn)向智能體任務(wù)調(diào)度員，不再盲目堆砌內(nèi)存帶寬，而是以更低功耗實現(xiàn)數(shù)據(jù)高效、精準(zhǔn)調(diào)度。黃仁勛稱，其性能是全球主流CPU的兩倍，將是一項價值數(shù)十億美元級的業(yè)務(wù)，“我們從未想過會單獨銷售 CPU，但現(xiàn)在確實賣得很多?！?/p>

由此，英偉達也打破了通用GPU打天下的敘事，轉(zhuǎn)向了場景化分工。目前，整套系統(tǒng)中形成了分工三角：GPU 負(fù)責(zé)重計算，CPU 負(fù)責(zé)調(diào)度編排，LPU負(fù)責(zé)極速輸出。再配合英偉達自研的Dynamo調(diào)度軟件，可靈活應(yīng)對不同AI任務(wù)對成本、延遲和吞吐量的復(fù)雜要求，在高價值Token生成場景中，每兆瓦Token吞吐量較上一代Blackwell提升35倍。

黃仁勛還進一步給出部署建議：高吞吐負(fù)載可100%使用Vera Rubin；編碼、高價值工程類Token生成負(fù)載，可配置25%Groq與75%Vera Rubin的組合。

除了軟硬件層面的發(fā)布，英偉達還構(gòu)建了一個新的敘事，“AI工廠”——

“我們不是單獨優(yōu)化芯片，而是在做極端協(xié)同設(shè)計：芯片、系統(tǒng)、網(wǎng)絡(luò)、軟件、算法、部署方式，全棧協(xié)同。未來，所有云服務(wù)商、AI 公司和大型企業(yè)，都會像今天研究制造業(yè)產(chǎn)線一樣，研究自己的 token 工廠效率。因為數(shù)據(jù)中心已經(jīng)不再只是‘存放文件的地方’，而是一個生產(chǎn) token 的工廠。token，正在成為新的商品；而 AI 計算，正在變成新的收入來源?！?/p>

這套敘事下，競爭不再是單一的芯片維度，而是包含了從芯片到液冷機架到網(wǎng)絡(luò)互聯(lián)和AI工廠操作系統(tǒng)，英偉達占據(jù)了從能源、芯片、基礎(chǔ)設(shè)施到模型的多個層級，客戶能“一站式”獲得訓(xùn)練+推理全生命周期的最優(yōu)成本。黃仁勛還闡述“Token工廠經(jīng)濟學(xué)”，強調(diào)“每瓦特每美元的token產(chǎn)出”這一全新衡量標(biāo)準(zhǔn)。

外界認(rèn)為，英偉達正通過一整套交付模式，用系統(tǒng)優(yōu)勢來用抹平單一維度的成本優(yōu)勢，從而應(yīng)對推理市場競爭。

2026年GTC，英偉達仍然是AI算力市場的主導(dǎo)者，不過它也正進入一場防御性戰(zhàn)事的開場。這場推理保衛(wèi)戰(zhàn)，也是新時代的生存和主導(dǎo)權(quán)之戰(zhàn)，一切才剛剛開始。

特別聲明

本文為澎湃號作者或機構(gòu)在澎湃新聞上傳并發(fā)布，僅代表該作者或機構(gòu)觀點，不代表澎湃新聞的觀點或立場，澎湃新聞僅提供信息發(fā)布平臺。申請澎湃號請用電腦訪問http://renzheng.thepaper.cn。

我要舉報

#英偉達