- +1
落定個人AI超算下一塊“拼圖” ,NVIDIA DGX Spark實現(xiàn)本地千億級參數(shù)模型推理
作者:毛爍
前幾天,我們在開箱NVIDIA DGX Spark的文章中給出了一個論斷,在如今大模型爆發(fā)的時代,每個人都應(yīng)該擁有一臺屬于自己的AI超算。

從工程實踐角度出發(fā),云端算力雖然強大,但其短板同樣明顯。
具體而言,首先是網(wǎng)絡(luò)問題。由于云端高度依賴網(wǎng)絡(luò)傳輸,在交互過程中,如果有網(wǎng)絡(luò)時延,最終將影響整體效率;接下來是數(shù)據(jù)問題,無論處理的是企業(yè)數(shù)據(jù)、個人隱私,還是尚未公開的業(yè)務(wù)素材,合規(guī)性和安全成本。緊接著是經(jīng)濟賬,云端算力按時計費的模式或?qū)е掠脩舨粩嘞馁Y源,尤其是用戶高頻次使用模型時,難以保持穩(wěn)定。
所以,對于NVIDIA DGX Spark這類桌面級超算而言,把算力與數(shù)據(jù)都留在身邊,讓開發(fā)與驗證在本地形成閉環(huán),往往才是效率、合規(guī)與成本三者的更優(yōu)解。
硬件提供了強大的算力基礎(chǔ),而系統(tǒng)則賦予了這臺機器真正的靈魂。
NVIDIA為NVIDIA DGX Spark定制了DGX OS,一款基于Ubuntu深度優(yōu)化的系統(tǒng)。桌面預(yù)裝的DGX Spark Resources類似工具箱,把NVIDIA面向不同場景的能力集中提供——從大模型推理到多模態(tài)訓(xùn)練,從代碼生成到數(shù)據(jù)科學(xué),都能通過對應(yīng)的NIM微服務(wù)快速啟用,真正做到了開箱即用。


對用戶來說,直接的體驗就是少走配置路,軟硬一體的交付方式,可以讓用戶把注意力放在生產(chǎn)力上。
我們直接在DGX Spark Resources中選擇了Isaac Sim,并在本地部署運行了這款基于NVIDIA Omniverse的機器人仿真平臺,整體部署過程非常順滑,仿真交互與場景加載展現(xiàn)出了極高的流暢度。Isaac Sim對硬件的要求較高且特殊。不僅需要Tensor Core支撐AI相關(guān)推理,也需要RT Core支撐光線追蹤渲染;同時,物理仿真/解算也依賴其GPU計算能力(CUDA/PhysX路徑)。

NVIDIA DGX Spark的流暢表現(xiàn),驗證了其高性能推理引擎的性能,更體現(xiàn)了系統(tǒng)層對“計算-圖形-物理”混合模態(tài)負(fù)載的深度優(yōu)化。這一軟硬耦合的極致調(diào)教,也正是其實現(xiàn)真正“開箱即用”的堅實底座。
01 統(tǒng)一內(nèi)存+片上協(xié)同 將“4路32B”本地推理拉入“穩(wěn)態(tài)區(qū)間”
開箱即用解決的是部署門檻,能否在日常高頻任務(wù)中提供穩(wěn)定、可預(yù)測的吞吐與延遲,還需要通過實測給出答案。
為了測試NVIDIA DGX Spark在更貼近日常的常規(guī)應(yīng)用場景表現(xiàn),我們首先選擇了當(dāng)前開源社區(qū)活躍度極高的主流中等參數(shù)模型Qwen3-32B(320億參數(shù))。
在本地單一模型推理測試中,NVIDIA DGX Spark整次推理任務(wù)的總耗時為約60.97秒。其中,模型加載時長約3秒,這意味著在常駐模型或長時間運行場景下,啟動的開銷對整體體驗影響極小。
在生成階段,NVIDIA DGX Spark生成520token,耗時約60.69秒,對應(yīng)的實際生成速率為8.57 tokens/s。這一數(shù)值意味著在本地部署的中等參數(shù)規(guī)模(32B)模型下,DGX Spark 的推理性能已經(jīng)進入“穩(wěn)態(tài)區(qū)間”,不會因短時波動而出現(xiàn)明顯抖動。
從體驗層面來看,8.57token/s的推理速度恰好處在“人類閱讀與交互的舒適區(qū)”。無論是代碼補全,還是實時對話式交互,這一速度都完全可用,交互延遲不會構(gòu)成明顯干擾。

在評估一臺桌面級AI超算的真實能力時,單路推理的測試并不足完全說明問題,更關(guān)鍵的是其在多任務(wù)并行條件下的表現(xiàn)。畢竟,在實際工作中,一臺本地超算往往同時承擔(dān)多項任務(wù)。
于是,在NVIDIA DGX Spark上,我們進行了4個Qwen3-32B模型的本地并發(fā)推理測試。結(jié)果顯示:模型平均加載時長約5.7秒;提示詞階段單路平均處理時長0.2775秒,對應(yīng)約60.1 tokens/s的平均處理速率;在生成階段,平均生成時長約62.6秒,生成速率平均穩(wěn)定在7.5 tokens/s。

數(shù)據(jù)上看,在4個 Qwen3-32B模型持續(xù)生成文本的條件下,各項指標(biāo)沒有出現(xiàn)明顯波動,整體推理過程節(jié)奏平穩(wěn),這也證明了NVIDIA DGX Spark在中等模型的本地并行推理場景中,能夠提供穩(wěn)定、持續(xù)且高度可預(yù)測的性能輸出。
這一結(jié)果首先得益于其128GB LPDDR5x統(tǒng)一內(nèi)存架構(gòu)。在4并發(fā)場景中,32B參數(shù)規(guī)模模型的權(quán)重、上下文緩存與中間數(shù)據(jù)均可完整“常駐”于同一物理內(nèi)存池,避免了多實例運行時常見的顯存切分和數(shù)據(jù)搬運問題。配合256-bit接口與273 GB/s的內(nèi)存帶寬,系統(tǒng)能夠在多路生成同時進行時,持續(xù)向GPU提供穩(wěn)定的數(shù)據(jù)吞吐,這是保障生成速率的關(guān)鍵基礎(chǔ)。
另一方面,GB10 Grace Blackwell Superchip(后文簡稱“GB10”)的片上協(xié)同設(shè)計放大了并發(fā)優(yōu)勢。20核的Grace CPU負(fù)責(zé)提示詞預(yù)處理、請求調(diào)度與系統(tǒng)協(xié)同,而Blackwell架構(gòu)GPU則專注于大規(guī)模矩陣計算。兩者通過NVLink-C2C建立高帶寬、低時延互連,使多路請求在進入GPU推理階段時的數(shù)據(jù)交付成本顯著降低,從而避免“CPU–GPU”數(shù)據(jù)交付在并發(fā)條件下成為瓶頸,繼而讓提示詞響應(yīng)能夠維持穩(wěn)定而高效的處理節(jié)奏。
生成階段的穩(wěn)定表現(xiàn),也體現(xiàn)出第五代Tensor Core在并發(fā)推理中的多流、多批次計算中保持的高效算子執(zhí)行密度。GPU能在同時處理多路推理負(fù)載時,算子執(zhí)行與內(nèi)存訪問保持良好平衡,使性能曲線呈現(xiàn)出平滑的線性分布。
02 原生推理加速 讓NVIDIA DGX Spark跑起千億參數(shù)模型
32B的模型并不是“終點”。在真實應(yīng)用中,隨著模型逐步向更長上下文、更強推理能力演進,開發(fā)者同樣關(guān)心的,是一臺桌面級AI超算在更大參數(shù)規(guī)模下是否依然具備可用性與工程價值。
所以,我們加測了一個項目,將測試負(fù)載提升到了千億參數(shù)級別,利用120B(1200億)參數(shù)的GPT-oss進一步檢驗DGX Spark在大模型本地化推理場景中的能力邊界。

從整體測試結(jié)果上看,模型加載時長為12秒,即便面對千億級以上參數(shù)規(guī)模,啟動開銷依舊維持在極低水平,這使得大模型以常駐方式運行成為現(xiàn)實可行的選擇。提示詞輸入74token,處理耗時32.06毫秒,這一階段幾乎不構(gòu)成可感知的延遲。
真正拉開差距的,是生成階段。本次測試共生成165token,耗時約4.66 秒,對應(yīng)的實際生成速率達到35.41tokens/s。對于一款在本地運行的120B級模型而言,這已經(jīng)不只是“可用”,而是足以支撐連續(xù)對話、復(fù)雜推理乃至交互式應(yīng)用的實時響應(yīng)。
整體來看,測試的結(jié)果不僅意味著DGX Spark能“裝下”千億級的模型,更能夠在實際推理過程中提供高頻、低延遲的輸出能力。如果放在傳統(tǒng)工作站上,這樣的效果幾乎難以實現(xiàn)。
傳統(tǒng)工作站往往依賴系統(tǒng)內(nèi)存進行“顯存交換”,模型參數(shù)部分駐留在GPU顯存,另一部分滯留在CPU內(nèi)存中,推理過程中通過PCIe總線不斷搬運數(shù)據(jù)。這種模式下,加載時間與推理延遲都會被顯著放大。
而DGX Spark得益于其128GB的統(tǒng)一內(nèi)存,可以將整個模型一次性完整加載進同一可尋址的內(nèi)存空間,不需要任何形式的顯存交換。這一點在兩個關(guān)鍵指標(biāo)上被明顯放大——加載時間和推理速度。
值得注意的是,在不同參數(shù)規(guī)模的測試中,出現(xiàn)了頗具“反直覺”意味的現(xiàn)象。120B參數(shù)GPT-oss的推理速度為35tokens/s,顯著快于32B參數(shù)Qwen3的8.57 tokens/s。
一般而言,模型參數(shù)規(guī)模越大,推理速度理應(yīng)越慢。但這一結(jié)果,恰恰體現(xiàn)出Blackwell架構(gòu)與GB10芯片的優(yōu)勢所在。
一方面,是對FP4(4-bit Floating Point)的原生支持與加速GPT-oss-120b使用MXFP4 量化(主要針對MoE權(quán)重),而Blackwell架構(gòu)的Tensor Core原生支持FP4數(shù)據(jù)格式的計算指令與執(zhí)行路徑,使該精度推理在硬件層面可獲得更高的執(zhí)行吞吐,從而帶來顯著的推理加速效果。
另一方面,是MoE(混合專家)架構(gòu)帶來的潛在加成。在單次推理過程中,真正被激活并參與計算的參數(shù)量,事實上低于理論參數(shù)。當(dāng)FP4精度下的高吞吐計算路徑與MoE 的“按需激活”機制疊加時,參數(shù)規(guī)模與實際計算負(fù)載之間的解耦則被進一步放大。
這一原因,或許也預(yù)示著,硬件的迭代升級,需要與模型和推理范式同步演進,才能真正轉(zhuǎn)化為可感知的性能躍遷。
而事實上,DGX Spark的意義之一,也正在于此。其實質(zhì)性地打破了兩個長期存在的經(jīng)驗桎梏?!皇恰扒|參數(shù)模型必須上云”;二是“本地運行大規(guī)模參數(shù)模型須依賴多卡集群”。
03 跨越“基礎(chǔ)生圖”到“8K負(fù)載” NVIDIA DGX Spark“零降頻”
當(dāng)AI創(chuàng)作走向真實的生產(chǎn)應(yīng)用場景,核心問題就已經(jīng)不再是模型能否跑起來,而是不同模態(tài)的模型,能否被連續(xù)、穩(wěn)定地串聯(lián)進同一條“生產(chǎn)管線”。
文本、圖像、視頻、3D,跨越每個模態(tài),算力形態(tài)、顯存占用與帶寬壓力都會發(fā)生質(zhì)變。所以,我們在NVIDIA DGX Spark上搭建并運行完整的多模態(tài)創(chuàng)作藍(lán)圖(BluePrint)——以FLUX.1為起點完成文本到1080p圖像生成,經(jīng)由超分模型將分辨率暴力拉升至8K,隨后接入阿里通義Wan 2.1實現(xiàn)圖生視頻,再利用騰訊混元3D模型完成二維到三維的維度升級,最終落地Blender進行工業(yè)級精修。
從FLUX文生圖開始,我們選擇在ComfyUI中直接加載標(biāo)準(zhǔn)的FLUX工作流,通過模型加載、提示詞輸入、分辨率設(shè)定、采樣器選擇、解碼與輸出的步驟,完整復(fù)現(xiàn)普通創(chuàng)作者最常見的生圖路徑。
運行工作流,生成在1080P分辨率圖片時,從設(shè)備內(nèi)存占用看,NVIDIA DGX Spark的顯存占用大約維持在一半左右,負(fù)載曲線平穩(wěn),沒有明顯的峰值抖動。單張圖片生成時間為1分27秒。在FLUX當(dāng)前的模型體量和計算復(fù)雜度下,這已經(jīng)是相當(dāng)“順滑”的體驗,更重要的是,全程沒有出現(xiàn)任何需要人為干預(yù)的異常狀態(tài)。

真正的考驗來自8K分辨率。
8K(7680×4320)并不是簡單的分辨率翻倍,其像素規(guī)模會直接躍升至4K分辨率的四倍,對顯存能力、帶寬,以及硬件能力提出了同步、全面的壓力。
在不改變工作流結(jié)構(gòu)的前提下,直接切換至8K超分工作流后,NVIDIA DGX Spark在1分30秒就完成了8K圖像的生成。在放大查看細(xì)節(jié)時可以清晰看到,無論是人物皮膚紋理,還是復(fù)雜材質(zhì)的層次過渡,都沒有出現(xiàn)糊邊、斷層或噪點堆積。

從架構(gòu)層面回看,NVIDIA DGX Spark在8K生圖上取得優(yōu)質(zhì)表現(xiàn)的原因,在于其大容量、高帶寬的LPDDR5X統(tǒng)一內(nèi)存,使得Diffusion在超大分辨率下產(chǎn)生的中間特征圖得以完整駐留。
同時,其GB10芯片的Blackwell架構(gòu)針對Diffusion與Transformer路徑有深度優(yōu)化的Transformer Engine,通過混合精度與算子級調(diào)度優(yōu)化,使Attention在超大分辨率場景下的實際性能曲線顯著趨于平滑,避免了傳統(tǒng)架構(gòu)中隨分辨率提升而出現(xiàn)的非線性性能坍塌。
04 時空“雙重奏” NVIDIA DGX Spark讓視頻不崩、3D不破
完成圖片生成后,下一步就是讓畫面動起來。
在這一階段,利用阿里通義萬相Wan2.2圖生視頻模型,直接將前一階段生成的8K靜態(tài)圖作為輸入,驗證其在高信息密度素材下的時序生成穩(wěn)定性。整體工作流依然保持常規(guī)配置,并將輸出分辨率設(shè)定為1280×720,以模擬現(xiàn)實創(chuàng)作中較為常見的視頻生成需求。
與靜態(tài)圖像不同,這一階段的計算模式已經(jīng)從單幀擴散,轉(zhuǎn)變?yōu)槎鄮瑫r序Transformer 與Diffusion疊加的混合負(fù)載。在實測過程中可以看到,NVIDIA DGX Spark的顯存占用始終維持在高度可控的區(qū)間內(nèi),沒有出現(xiàn)視頻生成模型中常見的“前期平穩(wěn)、后期突刺”的負(fù)載特征。最終完整生成耗時8分40秒。

從結(jié)果來看,生成視頻的動作銜接自然,鏡頭運動連續(xù)平滑,沒有明顯的幀間結(jié)構(gòu)性失真。這種穩(wěn)定性,取決于NVIDIA DGX Spark在長時間連續(xù)推理過程中的帶寬一致性與算子調(diào)度能力。

從架構(gòu)視角看,由于Wan2.2作為引入了復(fù)雜時空注意力機制(Spatio-Temporal Attention)的混合負(fù)載,本質(zhì)上是對顯存熱穩(wěn)定性與持續(xù)帶寬輸出能力要求較高。在接近9分鐘的持續(xù)高負(fù)載運行中,始終保持“零降頻”的狀態(tài),同時顯存占用曲線平滑。這也意味著NVIDIA DGX Spark在處理長序列KV Cache時具備充足的熱設(shè)計功耗(TDP)冗余度。
這一結(jié)果也進一步印證,NVIDIA DGX Spark能夠成功將算力轉(zhuǎn)化為生產(chǎn)環(huán)境下可持續(xù)輸出的有效算力,從而避免因硬件熱節(jié)流(Thermal Throttling)導(dǎo)致的幀間時序一致性崩塌——這正是多模態(tài)任務(wù)中容易被忽視但卻“致命”的穩(wěn)定性底線。
如果說圖生視頻是負(fù)載升級,那2D圖像3D化則是維度躍遷。
這一階段,利用NVIDIA DGX Spark運行騰訊混元3D 2.1模型,直接將已有圖片3D化。實測結(jié)果顯示,NVIDIA DGX Spark用時53秒完成完整的圖片3D化生成流程。
對生成的3D化模型進行預(yù)覽時,從結(jié)構(gòu)完整性來看,3D模型沒有出現(xiàn)大面積破面或明顯的比例失衡,整體幾何關(guān)系保持穩(wěn)定。

從推理特性上看,這類圖像3D化呈現(xiàn)出不同的負(fù)載形態(tài)。計算密度較高,但持續(xù)時間相對較短,這對GPU的瞬時吞吐能力、內(nèi)存訪問效率,以及算子調(diào)度響應(yīng)速度都非常敏感。
從工程角度看,3D建模本質(zhì)上是圍繞瞬時算力釋放能力與內(nèi)存系統(tǒng)協(xié)同效率展開的“閃電戰(zhàn)”。模型需要在多視角Diffusion推理與稀疏幾何重建(Sparse Geometry Reconstruction) 等不同計算階段之間頻繁切換。而NVIDIA DGX Spark能在53 秒內(nèi)完成該過程,則在于其本身高帶寬內(nèi)存支持下,對算子調(diào)度、緩存命中與計算并行性的整體優(yōu)化,有效降低了階段切換帶來的隱性開銷。
這種“干脆”的體驗,意味著NVIDIA DGX Spark不僅擅長承載長序列、高吞吐的持續(xù)負(fù)載,在面對計算密度極高、對調(diào)度與內(nèi)存系統(tǒng)高度敏感的“脈沖式推理任務(wù)”時,其執(zhí)行效率同樣能夠保持在高度可預(yù)測的工業(yè)級水準(zhǔn)。
05 寫在最后
在本地推理測試中,NVIDIADGX Spark的128GB統(tǒng)一內(nèi)存與Blackwell架構(gòu)FP4加速的“組合技”之下,讓開發(fā)者可以在桌面尺度上,以35 tokens/s 的速度流暢運行千億級別的開源模型。這種體驗,曾經(jīng)只存在于數(shù)據(jù)中心環(huán)境。
這背后,或許也是NVIDIA在Post-Training時代將數(shù)據(jù)中心級推理能力,系統(tǒng)性地延伸到個人計算平臺之上的深刻布局。
從多模態(tài)創(chuàng)作藍(lán)圖(BluePrint)結(jié)果上看,NVIDIA DGX Spark的核心優(yōu)勢,在于多分級的BluePrint能夠在一臺桌面級設(shè)備上穩(wěn)定運行。其GB10的Blackwell架構(gòu)針對Diffusion與Transformer的硬件級加速,也使顯存容量、算力密度與調(diào)度效率達成了良好平衡。這對于AI藝術(shù)家、游戲開發(fā)者、視頻創(chuàng)作者、3D設(shè)計師等從業(yè)者而言,意味著他們可以在不同模態(tài)間頻繁切換,無需分心管理算力。
NVIDIA DGX Spark的發(fā)售也預(yù)示著“云端算力本地化”的最后一塊拼圖基本落定。通過高能效比與統(tǒng)一內(nèi)存體系,有效打破了以往傳統(tǒng)工作站顯存碎片化導(dǎo)致的“算力孤島”,將分散在集群中的異構(gòu)計算負(fù)載無縫折疊到一臺桌面設(shè)備中,實現(xiàn)了全鏈路推理對云端 I/O 延遲的獨立性。這一優(yōu)勢,也為創(chuàng)作者帶來了真正的“計算主權(quán)”。
從生產(chǎn)力視角審視,NVIDIA DGX Spark的推出,也意味著AI生產(chǎn)力從“租賃制”向“內(nèi)生化”遷移的拐點。
一方面,其徹底消弭了云端不可避免的網(wǎng)絡(luò)抖動與TTFT(首字延遲),讓交互進入了真正的“零感”時代。NVIDIA DGX Spark毫秒級的響應(yīng),決定了AI還能是與用戶思維同頻、甚至預(yù)判意圖的實時Copilot。
更關(guān)鍵的變革在于“Agent 經(jīng)濟學(xué)”的邏輯重構(gòu)。?Agentic AI的演進之下,由無數(shù)Agent 組成的自主循環(huán)(Loop),需要在智能系統(tǒng)內(nèi)部進行“推理-反思-搜索-修正”的上百次迭代。在云端上,這是價格昂貴的Token;而在 DGX Spark上,這是固定成本下的強大算力。128GB的統(tǒng)一內(nèi)存為超長Context Window(上下文窗口)和龐大的本地知識庫(RAG)提供了物理載體,讓開發(fā)者可以零邊際成本地跑通復(fù)雜的思維鏈(CoT),在本地建立起自動化的生產(chǎn)閉環(huán)。
另外,真正的專業(yè)壁壘往往隱藏在私密數(shù)據(jù)中,云端模型永遠(yuǎn)通用,而個人超算允許用戶在本地利用LoRA等技術(shù)對千億級參數(shù)模型進行深度微調(diào)。用戶可以讓模型完全適應(yīng)自有的代碼規(guī)范、畫風(fēng)、文法,打造真正懂人、且完全忠誠于個人的電子替身。
或許,NVIDIA DGX Spark的推出,也是一種新的生產(chǎn)資料形態(tài)的轉(zhuǎn)化,其讓個人用戶首次在本地掌握接近數(shù)據(jù)中心級別的AI能力,能把“想法”穩(wěn)定、高效地轉(zhuǎn)化為“可交付成果”。
而在這個能夠本地掌握AI生產(chǎn)力的拐點之上,每個人,都應(yīng)該擁有一臺屬于自己的AI超算。
本文為澎湃號作者或機構(gòu)在澎湃新聞上傳并發(fā)布,僅代表該作者或機構(gòu)觀點,不代表澎湃新聞的觀點或立場,澎湃新聞僅提供信息發(fā)布平臺。申請澎湃號請用電腦訪問http://renzheng.thepaper.cn。





- 報料熱線: 021-962866
- 報料郵箱: news@thepaper.cn
互聯(lián)網(wǎng)新聞信息服務(wù)許可證:31120170006
增值電信業(yè)務(wù)經(jīng)營許可證:滬B2-2017116
? 2014-2026 上海東方報業(yè)有限公司




