下載客戶端

登錄

落定個人AI超算下一塊“拼圖” ，NVIDIA DGX Spark實現(xiàn)本地千億級參數(shù)模型推理

2026-01-08 19:31

來源：澎湃新聞·澎湃號·湃客

聽全文

作者：毛爍

前幾天，我們在開箱NVIDIA DGX Spark的文章中給出了一個論斷，在如今大模型爆發(fā)的時代，每個人都應(yīng)該擁有一臺屬于自己的AI超算。

從工程實踐角度出發(fā)，云端算力雖然強大，但其短板同樣明顯。

具體而言，首先是網(wǎng)絡(luò)問題。由于云端高度依賴網(wǎng)絡(luò)傳輸，在交互過程中，如果有網(wǎng)絡(luò)時延，最終將影響整體效率；接下來是數(shù)據(jù)問題，無論處理的是企業(yè)數(shù)據(jù)、個人隱私，還是尚未公開的業(yè)務(wù)素材，合規(guī)性和安全成本。緊接著是經(jīng)濟賬，云端算力按時計費的模式或?qū)е掠脩舨粩嘞馁Y源，尤其是用戶高頻次使用模型時，難以保持穩(wěn)定。

所以，對于NVIDIA DGX Spark這類桌面級超算而言，把算力與數(shù)據(jù)都留在身邊，讓開發(fā)與驗證在本地形成閉環(huán)，往往才是效率、合規(guī)與成本三者的更優(yōu)解。

硬件提供了強大的算力基礎(chǔ)，而系統(tǒng)則賦予了這臺機器真正的靈魂。

NVIDIA為NVIDIA DGX Spark定制了DGX OS，一款基于Ubuntu深度優(yōu)化的系統(tǒng)。桌面預(yù)裝的DGX Spark Resources類似工具箱，把NVIDIA面向不同場景的能力集中提供——從大模型推理到多模態(tài)訓(xùn)練，從代碼生成到數(shù)據(jù)科學(xué)，都能通過對應(yīng)的NIM微服務(wù)快速啟用，真正做到了開箱即用。

對用戶來說，直接的體驗就是少走配置路，軟硬一體的交付方式，可以讓用戶把注意力放在生產(chǎn)力上。

我們直接在DGX Spark Resources中選擇了Isaac Sim，并在本地部署運行了這款基于NVIDIA Omniverse的機器人仿真平臺，整體部署過程非常順滑，仿真交互與場景加載展現(xiàn)出了極高的流暢度。Isaac Sim對硬件的要求較高且特殊。不僅需要Tensor Core支撐AI相關(guān)推理，也需要RT Core支撐光線追蹤渲染；同時，物理仿真/解算也依賴其GPU計算能力（CUDA/PhysX路徑）。

NVIDIA DGX Spark的流暢表現(xiàn)，驗證了其高性能推理引擎的性能，更體現(xiàn)了系統(tǒng)層對“計算-圖形-物理”混合模態(tài)負(fù)載的深度優(yōu)化。這一軟硬耦合的極致調(diào)教，也正是其實現(xiàn)真正“開箱即用”的堅實底座。

01 統(tǒng)一內(nèi)存+片上協(xié)同將“4路32B”本地推理拉入“穩(wěn)態(tài)區(qū)間”

開箱即用解決的是部署門檻，能否在日常高頻任務(wù)中提供穩(wěn)定、可預(yù)測的吞吐與延遲，還需要通過實測給出答案。

為了測試NVIDIA DGX Spark在更貼近日常的常規(guī)應(yīng)用場景表現(xiàn)，我們首先選擇了當(dāng)前開源社區(qū)活躍度極高的主流中等參數(shù)模型Qwen3-32B（320億參數(shù)）。

在本地單一模型推理測試中，NVIDIA DGX Spark整次推理任務(wù)的總耗時為約60.97秒。其中，模型加載時長約3秒，這意味著在常駐模型或長時間運行場景下，啟動的開銷對整體體驗影響極小。

在生成階段，NVIDIA DGX Spark生成520token，耗時約60.69秒，對應(yīng)的實際生成速率為8.57 tokens/s。這一數(shù)值意味著在本地部署的中等參數(shù)規(guī)模（32B）模型下，DGX Spark 的推理性能已經(jīng)進入“穩(wěn)態(tài)區(qū)間”，不會因短時波動而出現(xiàn)明顯抖動。

從體驗層面來看，8.57token/s的推理速度恰好處在“人類閱讀與交互的舒適區(qū)”。無論是代碼補全，還是實時對話式交互，這一速度都完全可用，交互延遲不會構(gòu)成明顯干擾。

在評估一臺桌面級AI超算的真實能力時，單路推理的測試并不足完全說明問題，更關(guān)鍵的是其在多任務(wù)并行條件下的表現(xiàn)。畢竟，在實際工作中，一臺本地超算往往同時承擔(dān)多項任務(wù)。

于是，在NVIDIA DGX Spark上，我們進行了4個Qwen3-32B模型的本地并發(fā)推理測試。結(jié)果顯示：模型平均加載時長約5.7秒；提示詞階段單路平均處理時長0.2775秒，對應(yīng)約60.1 tokens/s的平均處理速率；在生成階段，平均生成時長約62.6秒，生成速率平均穩(wěn)定在7.5 tokens/s。

數(shù)據(jù)上看，在4個 Qwen3-32B模型持續(xù)生成文本的條件下，各項指標(biāo)沒有出現(xiàn)明顯波動，整體推理過程節(jié)奏平穩(wěn)，這也證明了NVIDIA DGX Spark在中等模型的本地并行推理場景中，能夠提供穩(wěn)定、持續(xù)且高度可預(yù)測的性能輸出。

這一結(jié)果首先得益于其128GB LPDDR5x統(tǒng)一內(nèi)存架構(gòu)。在4并發(fā)場景中，32B參數(shù)規(guī)模模型的權(quán)重、上下文緩存與中間數(shù)據(jù)均可完整“常駐”于同一物理內(nèi)存池，避免了多實例運行時常見的顯存切分和數(shù)據(jù)搬運問題。配合256-bit接口與273 GB/s的內(nèi)存帶寬，系統(tǒng)能夠在多路生成同時進行時，持續(xù)向GPU提供穩(wěn)定的數(shù)據(jù)吞吐，這是保障生成速率的關(guān)鍵基礎(chǔ)。

另一方面，GB10 Grace Blackwell Superchip（后文簡稱“GB10”）的片上協(xié)同設(shè)計放大了并發(fā)優(yōu)勢。20核的Grace CPU負(fù)責(zé)提示詞預(yù)處理、請求調(diào)度與系統(tǒng)協(xié)同，而Blackwell架構(gòu)GPU則專注于大規(guī)模矩陣計算。兩者通過NVLink-C2C建立高帶寬、低時延互連，使多路請求在進入GPU推理階段時的數(shù)據(jù)交付成本顯著降低，從而避免“CPU–GPU”數(shù)據(jù)交付在并發(fā)條件下成為瓶頸，繼而讓提示詞響應(yīng)能夠維持穩(wěn)定而高效的處理節(jié)奏。

生成階段的穩(wěn)定表現(xiàn)，也體現(xiàn)出第五代Tensor Core在并發(fā)推理中的多流、多批次計算中保持的高效算子執(zhí)行密度。GPU能在同時處理多路推理負(fù)載時，算子執(zhí)行與內(nèi)存訪問保持良好平衡，使性能曲線呈現(xiàn)出平滑的線性分布。

02 原生推理加速讓NVIDIA DGX Spark跑起千億參數(shù)模型

32B的模型并不是“終點”。在真實應(yīng)用中，隨著模型逐步向更長上下文、更強推理能力演進，開發(fā)者同樣關(guān)心的，是一臺桌面級AI超算在更大參數(shù)規(guī)模下是否依然具備可用性與工程價值。

所以，我們加測了一個項目，將測試負(fù)載提升到了千億參數(shù)級別，利用120B（1200億）參數(shù)的GPT-oss進一步檢驗DGX Spark在大模型本地化推理場景中的能力邊界。

從整體測試結(jié)果上看，模型加載時長為12秒，即便面對千億級以上參數(shù)規(guī)模，啟動開銷依舊維持在極低水平，這使得大模型以常駐方式運行成為現(xiàn)實可行的選擇。提示詞輸入74token，處理耗時32.06毫秒，這一階段幾乎不構(gòu)成可感知的延遲。

真正拉開差距的，是生成階段。本次測試共生成165token，耗時約4.66 秒，對應(yīng)的實際生成速率達到35.41tokens/s。對于一款在本地運行的120B級模型而言，這已經(jīng)不只是“可用”，而是足以支撐連續(xù)對話、復(fù)雜推理乃至交互式應(yīng)用的實時響應(yīng)。

整體來看，測試的結(jié)果不僅意味著DGX Spark能“裝下”千億級的模型，更能夠在實際推理過程中提供高頻、低延遲的輸出能力。如果放在傳統(tǒng)工作站上，這樣的效果幾乎難以實現(xiàn)。

傳統(tǒng)工作站往往依賴系統(tǒng)內(nèi)存進行“顯存交換”，模型參數(shù)部分駐留在GPU顯存，另一部分滯留在CPU內(nèi)存中，推理過程中通過PCIe總線不斷搬運數(shù)據(jù)。這種模式下，加載時間與推理延遲都會被顯著放大。

而DGX Spark得益于其128GB的統(tǒng)一內(nèi)存，可以將整個模型一次性完整加載進同一可尋址的內(nèi)存空間，不需要任何形式的顯存交換。這一點在兩個關(guān)鍵指標(biāo)上被明顯放大——加載時間和推理速度。

值得注意的是，在不同參數(shù)規(guī)模的測試中，出現(xiàn)了頗具“反直覺”意味的現(xiàn)象。120B參數(shù)GPT-oss的推理速度為35tokens/s，顯著快于32B參數(shù)Qwen3的8.57 tokens/s。

一般而言，模型參數(shù)規(guī)模越大，推理速度理應(yīng)越慢。但這一結(jié)果，恰恰體現(xiàn)出Blackwell架構(gòu)與GB10芯片的優(yōu)勢所在。

一方面，是對FP4（4-bit Floating Point）的原生支持與加速GPT-oss-120b使用MXFP4 量化（主要針對MoE權(quán)重），而Blackwell架構(gòu)的Tensor Core原生支持FP4數(shù)據(jù)格式的計算指令與執(zhí)行路徑，使該精度推理在硬件層面可獲得更高的執(zhí)行吞吐，從而帶來顯著的推理加速效果。

另一方面，是MoE（混合專家）架構(gòu)帶來的潛在加成。在單次推理過程中，真正被激活并參與計算的參數(shù)量，事實上低于理論參數(shù)。當(dāng)FP4精度下的高吞吐計算路徑與MoE 的“按需激活”機制疊加時，參數(shù)規(guī)模與實際計算負(fù)載之間的解耦則被進一步放大。

這一原因，或許也預(yù)示著，硬件的迭代升級，需要與模型和推理范式同步演進，才能真正轉(zhuǎn)化為可感知的性能躍遷。

而事實上，DGX Spark的意義之一，也正在于此。其實質(zhì)性地打破了兩個長期存在的經(jīng)驗桎梏?！皇恰扒|參數(shù)模型必須上云”；二是“本地運行大規(guī)模參數(shù)模型須依賴多卡集群”。

03 跨越“基礎(chǔ)生圖”到“8K負(fù)載” NVIDIA DGX Spark“零降頻”

當(dāng)AI創(chuàng)作走向真實的生產(chǎn)應(yīng)用場景，核心問題就已經(jīng)不再是模型能否跑起來，而是不同模態(tài)的模型，能否被連續(xù)、穩(wěn)定地串聯(lián)進同一條“生產(chǎn)管線”。

文本、圖像、視頻、3D，跨越每個模態(tài)，算力形態(tài)、顯存占用與帶寬壓力都會發(fā)生質(zhì)變。所以，我們在NVIDIA DGX Spark上搭建并運行完整的多模態(tài)創(chuàng)作藍(lán)圖（BluePrint）——以FLUX.1為起點完成文本到1080p圖像生成，經(jīng)由超分模型將分辨率暴力拉升至8K，隨后接入阿里通義Wan 2.1實現(xiàn)圖生視頻，再利用騰訊混元3D模型完成二維到三維的維度升級，最終落地Blender進行工業(yè)級精修。

從FLUX文生圖開始，我們選擇在ComfyUI中直接加載標(biāo)準(zhǔn)的FLUX工作流，通過模型加載、提示詞輸入、分辨率設(shè)定、采樣器選擇、解碼與輸出的步驟，完整復(fù)現(xiàn)普通創(chuàng)作者最常見的生圖路徑。

運行工作流，生成在1080P分辨率圖片時，從設(shè)備內(nèi)存占用看，NVIDIA DGX Spark的顯存占用大約維持在一半左右，負(fù)載曲線平穩(wěn)，沒有明顯的峰值抖動。單張圖片生成時間為1分27秒。在FLUX當(dāng)前的模型體量和計算復(fù)雜度下，這已經(jīng)是相當(dāng)“順滑”的體驗，更重要的是，全程沒有出現(xiàn)任何需要人為干預(yù)的異常狀態(tài)。

真正的考驗來自8K分辨率。

8K（7680×4320）并不是簡單的分辨率翻倍，其像素規(guī)模會直接躍升至4K分辨率的四倍，對顯存能力、帶寬，以及硬件能力提出了同步、全面的壓力。

在不改變工作流結(jié)構(gòu)的前提下，直接切換至8K超分工作流后，NVIDIA DGX Spark在1分30秒就完成了8K圖像的生成。在放大查看細(xì)節(jié)時可以清晰看到，無論是人物皮膚紋理，還是復(fù)雜材質(zhì)的層次過渡，都沒有出現(xiàn)糊邊、斷層或噪點堆積。

從架構(gòu)層面回看，NVIDIA DGX Spark在8K生圖上取得優(yōu)質(zhì)表現(xiàn)的原因，在于其大容量、高帶寬的LPDDR5X統(tǒng)一內(nèi)存，使得Diffusion在超大分辨率下產(chǎn)生的中間特征圖得以完整駐留。

同時，其GB10芯片的Blackwell架構(gòu)針對Diffusion與Transformer路徑有深度優(yōu)化的Transformer Engine，通過混合精度與算子級調(diào)度優(yōu)化，使Attention在超大分辨率場景下的實際性能曲線顯著趨于平滑，避免了傳統(tǒng)架構(gòu)中隨分辨率提升而出現(xiàn)的非線性性能坍塌。

04 時空“雙重奏” NVIDIA DGX Spark讓視頻不崩、3D不破

完成圖片生成后，下一步就是讓畫面動起來。

在這一階段，利用阿里通義萬相Wan2.2圖生視頻模型，直接將前一階段生成的8K靜態(tài)圖作為輸入，驗證其在高信息密度素材下的時序生成穩(wěn)定性。整體工作流依然保持常規(guī)配置，并將輸出分辨率設(shè)定為1280×720，以模擬現(xiàn)實創(chuàng)作中較為常見的視頻生成需求。

與靜態(tài)圖像不同，這一階段的計算模式已經(jīng)從單幀擴散，轉(zhuǎn)變?yōu)槎鄮瑫r序Transformer 與Diffusion疊加的混合負(fù)載。在實測過程中可以看到，NVIDIA DGX Spark的顯存占用始終維持在高度可控的區(qū)間內(nèi)，沒有出現(xiàn)視頻生成模型中常見的“前期平穩(wěn)、后期突刺”的負(fù)載特征。最終完整生成耗時8分40秒。

從結(jié)果來看，生成視頻的動作銜接自然，鏡頭運動連續(xù)平滑，沒有明顯的幀間結(jié)構(gòu)性失真。這種穩(wěn)定性，取決于NVIDIA DGX Spark在長時間連續(xù)推理過程中的帶寬一致性與算子調(diào)度能力。

從架構(gòu)視角看，由于Wan2.2作為引入了復(fù)雜時空注意力機制（Spatio-Temporal Attention）的混合負(fù)載，本質(zhì)上是對顯存熱穩(wěn)定性與持續(xù)帶寬輸出能力要求較高。在接近9分鐘的持續(xù)高負(fù)載運行中，始終保持“零降頻”的狀態(tài)，同時顯存占用曲線平滑。這也意味著NVIDIA DGX Spark在處理長序列KV Cache時具備充足的熱設(shè)計功耗（TDP）冗余度。

這一結(jié)果也進一步印證，NVIDIA DGX Spark能夠成功將算力轉(zhuǎn)化為生產(chǎn)環(huán)境下可持續(xù)輸出的有效算力，從而避免因硬件熱節(jié)流（Thermal Throttling）導(dǎo)致的幀間時序一致性崩塌——這正是多模態(tài)任務(wù)中容易被忽視但卻“致命”的穩(wěn)定性底線。

如果說圖生視頻是負(fù)載升級，那2D圖像3D化則是維度躍遷。

這一階段，利用NVIDIA DGX Spark運行騰訊混元3D 2.1模型，直接將已有圖片3D化。實測結(jié)果顯示，NVIDIA DGX Spark用時53秒完成完整的圖片3D化生成流程。

對生成的3D化模型進行預(yù)覽時，從結(jié)構(gòu)完整性來看，3D模型沒有出現(xiàn)大面積破面或明顯的比例失衡，整體幾何關(guān)系保持穩(wěn)定。

從推理特性上看，這類圖像3D化呈現(xiàn)出不同的負(fù)載形態(tài)。計算密度較高，但持續(xù)時間相對較短，這對GPU的瞬時吞吐能力、內(nèi)存訪問效率，以及算子調(diào)度響應(yīng)速度都非常敏感。

從工程角度看，3D建模本質(zhì)上是圍繞瞬時算力釋放能力與內(nèi)存系統(tǒng)協(xié)同效率展開的“閃電戰(zhàn)”。模型需要在多視角Diffusion推理與稀疏幾何重建（Sparse Geometry Reconstruction）等不同計算階段之間頻繁切換。而NVIDIA DGX Spark能在53 秒內(nèi)完成該過程，則在于其本身高帶寬內(nèi)存支持下，對算子調(diào)度、緩存命中與計算并行性的整體優(yōu)化，有效降低了階段切換帶來的隱性開銷。

這種“干脆”的體驗，意味著NVIDIA DGX Spark不僅擅長承載長序列、高吞吐的持續(xù)負(fù)載，在面對計算密度極高、對調(diào)度與內(nèi)存系統(tǒng)高度敏感的“脈沖式推理任務(wù)”時，其執(zhí)行效率同樣能夠保持在高度可預(yù)測的工業(yè)級水準(zhǔn)。

05 寫在最后

在本地推理測試中，NVIDIADGX Spark的128GB統(tǒng)一內(nèi)存與Blackwell架構(gòu)FP4加速的“組合技”之下，讓開發(fā)者可以在桌面尺度上，以35 tokens/s 的速度流暢運行千億級別的開源模型。這種體驗，曾經(jīng)只存在于數(shù)據(jù)中心環(huán)境。

這背后，或許也是NVIDIA在Post-Training時代將數(shù)據(jù)中心級推理能力，系統(tǒng)性地延伸到個人計算平臺之上的深刻布局。

從多模態(tài)創(chuàng)作藍(lán)圖（BluePrint）結(jié)果上看，NVIDIA DGX Spark的核心優(yōu)勢，在于多分級的BluePrint能夠在一臺桌面級設(shè)備上穩(wěn)定運行。其GB10的Blackwell架構(gòu)針對Diffusion與Transformer的硬件級加速，也使顯存容量、算力密度與調(diào)度效率達成了良好平衡。這對于AI藝術(shù)家、游戲開發(fā)者、視頻創(chuàng)作者、3D設(shè)計師等從業(yè)者而言，意味著他們可以在不同模態(tài)間頻繁切換，無需分心管理算力。

NVIDIA DGX Spark的發(fā)售也預(yù)示著“云端算力本地化”的最后一塊拼圖基本落定。通過高能效比與統(tǒng)一內(nèi)存體系，有效打破了以往傳統(tǒng)工作站顯存碎片化導(dǎo)致的“算力孤島”，將分散在集群中的異構(gòu)計算負(fù)載無縫折疊到一臺桌面設(shè)備中，實現(xiàn)了全鏈路推理對云端 I/O 延遲的獨立性。這一優(yōu)勢，也為創(chuàng)作者帶來了真正的“計算主權(quán)”。

從生產(chǎn)力視角審視，NVIDIA DGX Spark的推出，也意味著AI生產(chǎn)力從“租賃制”向“內(nèi)生化”遷移的拐點。

一方面，其徹底消弭了云端不可避免的網(wǎng)絡(luò)抖動與TTFT（首字延遲），讓交互進入了真正的“零感”時代。NVIDIA DGX Spark毫秒級的響應(yīng)，決定了AI還能是與用戶思維同頻、甚至預(yù)判意圖的實時Copilot。

更關(guān)鍵的變革在于“Agent 經(jīng)濟學(xué)”的邏輯重構(gòu)。?Agentic AI的演進之下，由無數(shù)Agent 組成的自主循環(huán)（Loop），需要在智能系統(tǒng)內(nèi)部進行“推理-反思-搜索-修正”的上百次迭代。在云端上，這是價格昂貴的Token；而在 DGX Spark上，這是固定成本下的強大算力。128GB的統(tǒng)一內(nèi)存為超長Context Window（上下文窗口）和龐大的本地知識庫（RAG）提供了物理載體，讓開發(fā)者可以零邊際成本地跑通復(fù)雜的思維鏈（CoT），在本地建立起自動化的生產(chǎn)閉環(huán)。

另外，真正的專業(yè)壁壘往往隱藏在私密數(shù)據(jù)中，云端模型永遠(yuǎn)通用，而個人超算允許用戶在本地利用LoRA等技術(shù)對千億級參數(shù)模型進行深度微調(diào)。用戶可以讓模型完全適應(yīng)自有的代碼規(guī)范、畫風(fēng)、文法，打造真正懂人、且完全忠誠于個人的電子替身。

或許，NVIDIA DGX Spark的推出，也是一種新的生產(chǎn)資料形態(tài)的轉(zhuǎn)化，其讓個人用戶首次在本地掌握接近數(shù)據(jù)中心級別的AI能力，能把“想法”穩(wěn)定、高效地轉(zhuǎn)化為“可交付成果”。

而在這個能夠本地掌握AI生產(chǎn)力的拐點之上，每個人，都應(yīng)該擁有一臺屬于自己的AI超算。

特別聲明

本文為澎湃號作者或機構(gòu)在澎湃新聞上傳并發(fā)布，僅代表該作者或機構(gòu)觀點，不代表澎湃新聞的觀點或立場，澎湃新聞僅提供信息發(fā)布平臺。申請澎湃號請用電腦訪問http://renzheng.thepaper.cn。

我要舉報

#NVIDIA