Nvidia GTC 2026：GPU巨頭如何應(yīng)對生成式AI挑戰(zhàn)

2026-03-17 12:35

來源：澎湃新聞·澎湃號·湃客

Nvidia面臨著一個重大挑戰(zhàn)。當(dāng)前流行的生成式AI工作負載，如代碼助手和智能體系統(tǒng)，會產(chǎn)生大量Token并需要高速處理。但這家GPU巨頭的芯片目前在這方面表現(xiàn)不足。

這種情況將在下周開始改變，屆時Nvidia首席執(zhí)行官黃仁勛將在公司的GPU技術(shù)大會（簡稱GTC）上解釋他將如何利用去年底收購新興公司Groq時獲得的Token高速處理加速器技術(shù)。

市場觀察公司SemiAnalysis的最新InferenceX基準測試顯示，Groq的技術(shù)如何填補Nvidia當(dāng)前產(chǎn)品組合的空白。

InferenceX的效率帕累托曲線可分為三個主要類別：左側(cè)的批量Token、右側(cè)的昂貴低延遲Token，以及中間所謂的"黃金區(qū)域"。

雖然Nvidia的NVL72機架系統(tǒng)在較低的每用戶Token生成率下擴展性良好，但隨著用戶交互性增加，效率會逐漸降低。

相比之下，像Groq和Cerebras所推崇的SRAM重型架構(gòu)，在延遲敏感場景中表現(xiàn)出色，能夠?qū)崿F(xiàn)每秒超過500甚至1000個Token的生成速率。這遠超GPU架構(gòu)所能提供的Token數(shù)量。

事實上，正是憑借這種能力，Cerebras在今年早些時候贏得了OpenAI的業(yè)務(wù)，為其Codex模型提供動力。直到Nvidia在12月以驚人的200億美元收購了Groq的知識產(chǎn)權(quán)和人才，該公司才擁有與Cerebras匹敵的技術(shù)。

通過將其GPU技術(shù)和CUDA軟件庫與Groq的數(shù)據(jù)流架構(gòu)相結(jié)合，Nvidia有機會大幅提升帕累托曲線，降低每Token成本，同時提高輸出速度。

將Nvidia的CUDA硬件棧擴展到包含Groq的數(shù)據(jù)流架構(gòu)并非易事。在GTC上，Nvidia可能會宣布相對快速地為Groq現(xiàn)有架構(gòu)提供有限支持。

更多硅芯片產(chǎn)品

本屆GTC感覺有些不同，因為Nvidia已經(jīng)在1月的CES上提前透露了其Rubin GPU的消息。

回顧一下，Rubin配備了高達288GB的HBM4內(nèi)存，帶寬達22TB/s，根據(jù)用例不同，提供35-50 petaFLOPS的密集NVFP4性能。

這次發(fā)布代表著相比Nvidia當(dāng)前Blackwell一代產(chǎn)品的重大性能提升，提供5倍的密集浮點吞吐量。到目前為止，Nvidia已宣布這些芯片將在八路HGX平臺或其NVL72機架系統(tǒng)中提供，顧名思義，后者將72個Rubin SXM模塊裝入單個系統(tǒng)中。

還有Rubin GPX，這是在2025年6月的Computex上宣布的，將裝入選定的NVL機架中，為大上下文和視頻處理工作流程提供額外的計算能力。

我們預(yù)計黃仁勛會重點強調(diào)其不斷增長的GPU產(chǎn)品組合所帶來的性能優(yōu)化和效率提升。但隨著這些GPU變得越來越熱——估計Rubin的熱設(shè)計功耗達到1.8kW甚至更高——液體冷卻不再是可選項。一些買家可能會對這一要求望而卻步，這將有利于AMD及其風(fēng)冷設(shè)備。

然而，考慮到Rubin架構(gòu)帶來的代際提升，沒有什么能阻止Nvidia發(fā)布單芯片、風(fēng)冷版本的芯片，配備五或六個HBM堆棧而非八個。這樣的芯片仍能提供比Blackwell高2.5倍的性能提升——而且無需液體冷卻。

這只是推測，但我們有一種預(yù)感，可能會在下周的慶典中看到類似的產(chǎn)品。

強大的Vera核心

除了最新的數(shù)據(jù)中心GPU，我們預(yù)計會看到Nvidia獨立Vera CPU的更多細節(jié)。

Vera在去年的GTC上首次亮相，配備88個定制Arm核心，增加了同步多線程支持和一系列此前僅在x86平臺上可用的機密計算功能。

到目前為止，我們只看到該CPU作為Nvidia Vera-Rubin超級芯片的一部分進行封裝。然而，我們后來了解到Nvidia將提供獨立處理器版本，在某些主流應(yīng)用中與Intel和AMD競爭。

此前，Nvidia曾提供Grace CPU超級芯片，但這些主要用于超級計算機和其他HPC應(yīng)用。然而，上個月這家GPU巨頭透露Meta將成為其首個大規(guī)模部署Grace的合作伙伴，該社交網(wǎng)絡(luò)公司已在評估Vera CPU在其數(shù)據(jù)中心的使用情況。

設(shè)定期望

除了新的數(shù)據(jù)中心硅芯片，我們還預(yù)計黃仁勛將分享更多關(guān)于Nvidia下一代Kyber機架和Feynman GPU的細節(jié)，這些產(chǎn)品預(yù)計將在2027年和2028年首次亮相。

我們首次在去年的GTC上看到Kyber。這個600kW的龐然大物將在標準機架外形規(guī)格中容納144個GPU插槽，每個插槽配備四個Rubin Ultra GPU芯片。

Nvidia披露Kyber的存在部分是因為數(shù)據(jù)中心運營商已經(jīng)在應(yīng)對前一年宣布的120kW NVL72系統(tǒng)時遇到困難。通過透露Kyber，Nvidia為數(shù)據(jù)中心物理基礎(chǔ)設(shè)施供應(yīng)商點燃了一把火，讓他們能夠在2027年前配備支持此類系統(tǒng)所需的電源和冷卻設(shè)備。憑借年度發(fā)布節(jié)奏，Nvidia不能等待行業(yè)其他部分跟上——它必須提前幾年傳達其下一步行動。

距離Feynman只有兩年時間，我們懷疑黃仁勛可能會重復(fù)這一做法，設(shè)定新的功率和冷卻目標，可能超過每機架一兆瓦。

Nvidia會給游戲玩家一些好消息嗎？

長期以來，人們一直傳言Nvidia正在開發(fā)用于PC的基于Arm的系統(tǒng)芯片。

能夠勝任這項工作的部件去年以DGX Spark和GB10合作伙伴系統(tǒng)的形式出現(xiàn)。然而，到目前為止，原始設(shè)備制造商只在運行Linux的工作站級迷你PC中使用這種芯片。最近的報告顯示，Nvidia正在與聯(lián)想和戴爾等公司合作，將類似產(chǎn)品引入Windows PC市場。

正如我們之前報道的，Nvidia還在與Intel合作，將其GPU芯片集成到Intel的下一代處理器中。

GTC似乎是給游戲玩家一些好消息的好時機，讓Nvidia在專業(yè)可視化市場的副業(yè)之外有新的市場可以追逐。

集成的Nvidia顯卡可能不是許多人希望在CES上看到的RTX 50 Super系列卡，但考慮到內(nèi)存市場的狀況，它們不太可能在GTC上亮相。

OpenClaw、機器人技術(shù)和其他一切

除了大型硬件和消費級硬件的遠程可能性，你可以肯定OpenClaw將成為GTC的主要話題。

黃仁勛顯然非常喜歡這個智能體框架，盡管它存在許多安全漏洞，據(jù)報道他將其描述為"可能有史以來最重要的軟件發(fā)布"。

據(jù)報道，該公司正在開發(fā)自己的、可能更安全的平臺版本，名為NemoClaw。

說到claw，我們還期待看到更多機器人登臺亮相。自近兩年前宣布其Isaac GR00T機器人平臺以來，Nvidia已推出了穩(wěn)定的新工具包、框架和硬件開發(fā)平臺供應(yīng)，旨在為生成式AI賦予物理形態(tài)。

為了教會它們在不可預(yù)測的世界中運作，你可以指望Nvidia的Omniverse數(shù)字孿生平臺再次出現(xiàn)。該平臺于2019年在元宇宙熱潮興起時推出，旨在創(chuàng)建一個虛擬環(huán)境，在其中可以在現(xiàn)實生活實施之前在數(shù)字世界中模擬物理過程。

開發(fā)者此后已將Omniverse集成到各種仿真平臺中，包括用于設(shè)計和構(gòu)建AI數(shù)據(jù)中心的平臺。

El Reg將在下周前往圣何塞參加GTC，為您帶來這個已成為世界上最受關(guān)注的技術(shù)會議之一的最新消息。

Q&A

Q1：Groq技術(shù)對Nvidia有什么重要意義？

A：Groq的SRAM重型架構(gòu)在延遲敏感場景中表現(xiàn)出色，能夠?qū)崿F(xiàn)每秒超過500甚至1000個Token的生成速率，這遠超GPU架構(gòu)所能提供的Token數(shù)量。通過將GPU技術(shù)和CUDA軟件庫與Groq的數(shù)據(jù)流架構(gòu)相結(jié)合，Nvidia有機會大幅提升效率，降低每Token成本。

Q2：Rubin GPU相比Blackwell有什么性能提升？

A：Rubin配備了高達288GB的HBM4內(nèi)存，帶寬達22TB/s，提供35-50 petaFLOPS的密集NVFP4性能。這次發(fā)布代表著相比Nvidia當(dāng)前Blackwell一代產(chǎn)品的重大性能提升，提供5倍的密集浮點吞吐量，但估計熱設(shè)計功耗達到1.8kW甚至更高。

Q3：Vera CPU有什么特色功能？

A：Vera配備88個定制Arm核心，增加了同步多線程支持和一系列此前僅在x86平臺上可用的機密計算功能。Nvidia將提供獨立處理器版本，在某些主流應(yīng)用中與Intel和AMD競爭，Meta已經(jīng)在評估Vera CPU在其數(shù)據(jù)中心的使用情況。

特別聲明

本文為澎湃號作者或機構(gòu)在澎湃新聞上傳并發(fā)布，僅代表該作者或機構(gòu)觀點，不代表澎湃新聞的觀點或立場，澎湃新聞僅提供信息發(fā)布平臺。申請澎湃號請用電腦訪問http://renzheng.thepaper.cn。

我要舉報

#Nvidia