欧美成人A片免费|日韩无码一级av|一级黄色大片在线播放|黄片视频在线观看无码|亚洲精品成人无码影视|婷婷五月天视频网站|日韩三级AV在线播放|姓爱av在线婷婷春色五月天|真人全黃色录像免费特黄片|日本无码黄在线观看下载

  • +1

Nvidia GTC 2026:GPU巨頭如何應(yīng)對生成式AI挑戰(zhàn)

2026-03-17 12:35
來源:澎湃新聞·澎湃號·湃客
字號

Nvidia面臨著一個重大挑戰(zhàn)。當(dāng)前流行的生成式AI工作負載,如代碼助手和智能體系統(tǒng),會產(chǎn)生大量Token并需要高速處理。但這家GPU巨頭的芯片目前在這方面表現(xiàn)不足。

這種情況將在下周開始改變,屆時Nvidia首席執(zhí)行官黃仁勛將在公司的GPU技術(shù)大會(簡稱GTC)上解釋他將如何利用去年底收購新興公司Groq時獲得的Token高速處理加速器技術(shù)。

市場觀察公司SemiAnalysis的最新InferenceX基準測試顯示,Groq的技術(shù)如何填補Nvidia當(dāng)前產(chǎn)品組合的空白。

InferenceX的效率帕累托曲線可分為三個主要類別:左側(cè)的批量Token、右側(cè)的昂貴低延遲Token,以及中間所謂的"黃金區(qū)域"。

雖然Nvidia的NVL72機架系統(tǒng)在較低的每用戶Token生成率下擴展性良好,但隨著用戶交互性增加,效率會逐漸降低。

相比之下,像Groq和Cerebras所推崇的SRAM重型架構(gòu),在延遲敏感場景中表現(xiàn)出色,能夠?qū)崿F(xiàn)每秒超過500甚至1000個Token的生成速率。這遠超GPU架構(gòu)所能提供的Token數(shù)量。

事實上,正是憑借這種能力,Cerebras在今年早些時候贏得了OpenAI的業(yè)務(wù),為其Codex模型提供動力。直到Nvidia在12月以驚人的200億美元收購了Groq的知識產(chǎn)權(quán)和人才,該公司才擁有與Cerebras匹敵的技術(shù)。

通過將其GPU技術(shù)和CUDA軟件庫與Groq的數(shù)據(jù)流架構(gòu)相結(jié)合,Nvidia有機會大幅提升帕累托曲線,降低每Token成本,同時提高輸出速度。

將Nvidia的CUDA硬件棧擴展到包含Groq的數(shù)據(jù)流架構(gòu)并非易事。在GTC上,Nvidia可能會宣布相對快速地為Groq現(xiàn)有架構(gòu)提供有限支持。

更多硅芯片產(chǎn)品

本屆GTC感覺有些不同,因為Nvidia已經(jīng)在1月的CES上提前透露了其Rubin GPU的消息。

回顧一下,Rubin配備了高達288GB的HBM4內(nèi)存,帶寬達22TB/s,根據(jù)用例不同,提供35-50 petaFLOPS的密集NVFP4性能。

這次發(fā)布代表著相比Nvidia當(dāng)前Blackwell一代產(chǎn)品的重大性能提升,提供5倍的密集浮點吞吐量。到目前為止,Nvidia已宣布這些芯片將在八路HGX平臺或其NVL72機架系統(tǒng)中提供,顧名思義,后者將72個Rubin SXM模塊裝入單個系統(tǒng)中。

還有Rubin GPX,這是在2025年6月的Computex上宣布的,將裝入選定的NVL機架中,為大上下文和視頻處理工作流程提供額外的計算能力。

我們預(yù)計黃仁勛會重點強調(diào)其不斷增長的GPU產(chǎn)品組合所帶來的性能優(yōu)化和效率提升。但隨著這些GPU變得越來越熱——估計Rubin的熱設(shè)計功耗達到1.8kW甚至更高——液體冷卻不再是可選項。一些買家可能會對這一要求望而卻步,這將有利于AMD及其風(fēng)冷設(shè)備。

然而,考慮到Rubin架構(gòu)帶來的代際提升,沒有什么能阻止Nvidia發(fā)布單芯片、風(fēng)冷版本的芯片,配備五或六個HBM堆棧而非八個。這樣的芯片仍能提供比Blackwell高2.5倍的性能提升——而且無需液體冷卻。

這只是推測,但我們有一種預(yù)感,可能會在下周的慶典中看到類似的產(chǎn)品。

強大的Vera核心

除了最新的數(shù)據(jù)中心GPU,我們預(yù)計會看到Nvidia獨立Vera CPU的更多細節(jié)。

Vera在去年的GTC上首次亮相,配備88個定制Arm核心,增加了同步多線程支持和一系列此前僅在x86平臺上可用的機密計算功能。

到目前為止,我們只看到該CPU作為Nvidia Vera-Rubin超級芯片的一部分進行封裝。然而,我們后來了解到Nvidia將提供獨立處理器版本,在某些主流應(yīng)用中與Intel和AMD競爭。

此前,Nvidia曾提供Grace CPU超級芯片,但這些主要用于超級計算機和其他HPC應(yīng)用。然而,上個月這家GPU巨頭透露Meta將成為其首個大規(guī)模部署Grace的合作伙伴,該社交網(wǎng)絡(luò)公司已在評估Vera CPU在其數(shù)據(jù)中心的使用情況。

設(shè)定期望

除了新的數(shù)據(jù)中心硅芯片,我們還預(yù)計黃仁勛將分享更多關(guān)于Nvidia下一代Kyber機架和Feynman GPU的細節(jié),這些產(chǎn)品預(yù)計將在2027年和2028年首次亮相。

我們首次在去年的GTC上看到Kyber。這個600kW的龐然大物將在標準機架外形規(guī)格中容納144個GPU插槽,每個插槽配備四個Rubin Ultra GPU芯片。

Nvidia披露Kyber的存在部分是因為數(shù)據(jù)中心運營商已經(jīng)在應(yīng)對前一年宣布的120kW NVL72系統(tǒng)時遇到困難。通過透露Kyber,Nvidia為數(shù)據(jù)中心物理基礎(chǔ)設(shè)施供應(yīng)商點燃了一把火,讓他們能夠在2027年前配備支持此類系統(tǒng)所需的電源和冷卻設(shè)備。憑借年度發(fā)布節(jié)奏,Nvidia不能等待行業(yè)其他部分跟上——它必須提前幾年傳達其下一步行動。

距離Feynman只有兩年時間,我們懷疑黃仁勛可能會重復(fù)這一做法,設(shè)定新的功率和冷卻目標,可能超過每機架一兆瓦。

Nvidia會給游戲玩家一些好消息嗎?

長期以來,人們一直傳言Nvidia正在開發(fā)用于PC的基于Arm的系統(tǒng)芯片。

能夠勝任這項工作的部件去年以DGX Spark和GB10合作伙伴系統(tǒng)的形式出現(xiàn)。然而,到目前為止,原始設(shè)備制造商只在運行Linux的工作站級迷你PC中使用這種芯片。最近的報告顯示,Nvidia正在與聯(lián)想和戴爾等公司合作,將類似產(chǎn)品引入Windows PC市場。

正如我們之前報道的,Nvidia還在與Intel合作,將其GPU芯片集成到Intel的下一代處理器中。

GTC似乎是給游戲玩家一些好消息的好時機,讓Nvidia在專業(yè)可視化市場的副業(yè)之外有新的市場可以追逐。

集成的Nvidia顯卡可能不是許多人希望在CES上看到的RTX 50 Super系列卡,但考慮到內(nèi)存市場的狀況,它們不太可能在GTC上亮相。

OpenClaw、機器人技術(shù)和其他一切

除了大型硬件和消費級硬件的遠程可能性,你可以肯定OpenClaw將成為GTC的主要話題。

黃仁勛顯然非常喜歡這個智能體框架,盡管它存在許多安全漏洞,據(jù)報道他將其描述為"可能有史以來最重要的軟件發(fā)布"。

據(jù)報道,該公司正在開發(fā)自己的、可能更安全的平臺版本,名為NemoClaw。

說到claw,我們還期待看到更多機器人登臺亮相。自近兩年前宣布其Isaac GR00T機器人平臺以來,Nvidia已推出了穩(wěn)定的新工具包、框架和硬件開發(fā)平臺供應(yīng),旨在為生成式AI賦予物理形態(tài)。

為了教會它們在不可預(yù)測的世界中運作,你可以指望Nvidia的Omniverse數(shù)字孿生平臺再次出現(xiàn)。該平臺于2019年在元宇宙熱潮興起時推出,旨在創(chuàng)建一個虛擬環(huán)境,在其中可以在現(xiàn)實生活實施之前在數(shù)字世界中模擬物理過程。

開發(fā)者此后已將Omniverse集成到各種仿真平臺中,包括用于設(shè)計和構(gòu)建AI數(shù)據(jù)中心的平臺。

El Reg將在下周前往圣何塞參加GTC,為您帶來這個已成為世界上最受關(guān)注的技術(shù)會議之一的最新消息。

Q&A

Q1:Groq技術(shù)對Nvidia有什么重要意義?

A:Groq的SRAM重型架構(gòu)在延遲敏感場景中表現(xiàn)出色,能夠?qū)崿F(xiàn)每秒超過500甚至1000個Token的生成速率,這遠超GPU架構(gòu)所能提供的Token數(shù)量。通過將GPU技術(shù)和CUDA軟件庫與Groq的數(shù)據(jù)流架構(gòu)相結(jié)合,Nvidia有機會大幅提升效率,降低每Token成本。

Q2:Rubin GPU相比Blackwell有什么性能提升?

A:Rubin配備了高達288GB的HBM4內(nèi)存,帶寬達22TB/s,提供35-50 petaFLOPS的密集NVFP4性能。這次發(fā)布代表著相比Nvidia當(dāng)前Blackwell一代產(chǎn)品的重大性能提升,提供5倍的密集浮點吞吐量,但估計熱設(shè)計功耗達到1.8kW甚至更高。

Q3:Vera CPU有什么特色功能?

A:Vera配備88個定制Arm核心,增加了同步多線程支持和一系列此前僅在x86平臺上可用的機密計算功能。Nvidia將提供獨立處理器版本,在某些主流應(yīng)用中與Intel和AMD競爭,Meta已經(jīng)在評估Vera CPU在其數(shù)據(jù)中心的使用情況。

    本文為澎湃號作者或機構(gòu)在澎湃新聞上傳并發(fā)布,僅代表該作者或機構(gòu)觀點,不代表澎湃新聞的觀點或立場,澎湃新聞僅提供信息發(fā)布平臺。申請澎湃號請用電腦訪問http://renzheng.thepaper.cn。

    +1
    收藏
    我要舉報
            查看更多

            掃碼下載澎湃新聞客戶端

            滬ICP備14003370號

            滬公網(wǎng)安備31010602000299號

            互聯(lián)網(wǎng)新聞信息服務(wù)許可證:31120170006

            增值電信業(yè)務(wù)經(jīng)營許可證:滬B2-2017116

            ? 2014-2026 上海東方報業(yè)有限公司