下載客戶端

登錄

GTC 2026｜ “千萬(wàn)缺口”之下，NVIDIA把AI嵌入了醫(yī)療行業(yè)

2026-03-21 14:15

來(lái)源：澎湃新聞·澎湃號(hào)·湃客

聽全文

作者：毛爍

世界衛(wèi)生組織預(yù)測(cè)，2030年，全球醫(yī)療系統(tǒng)將面臨高達(dá)1100萬(wàn)的專業(yè)醫(yī)護(hù)人員短缺。與此同時(shí)，在基礎(chǔ)設(shè)施層面，全球運(yùn)行著16萬(wàn)家醫(yī)院、40萬(wàn)間手術(shù)室，承載著超過(guò)800萬(wàn)臺(tái)醫(yī)療設(shè)備，每年需要執(zhí)行7.2萬(wàn)種極為復(fù)雜、非標(biāo)準(zhǔn)化的醫(yī)療程序。

這帶來(lái)一個(gè)很明顯的變化是：

一邊，是醫(yī)療數(shù)據(jù)正在變得越來(lái)越“重”——影像、語(yǔ)音、文本、結(jié)構(gòu)化指標(biāo)全面疊加，多模態(tài)數(shù)據(jù)不僅體量大，而且彼此之間強(qiáng)耦合。

另一邊，是算力需求同樣在飆升，大模型推理天然傾向于集中化的高性能算力中心。但問(wèn)題在于，醫(yī)療行業(yè)的數(shù)據(jù)根本“動(dòng)不了”，隱私、合規(guī)、知識(shí)產(chǎn)權(quán)，決定了數(shù)據(jù)必須被鎖在本地局域網(wǎng)或受控私有云里。

這就出現(xiàn)了一個(gè)矛盾——算力集中，但數(shù)據(jù)必須本地化。

這也是為什么，簡(jiǎn)單把云上的大模型“搬下來(lái)”是行不通的。而真正可行的路徑，其實(shí)是把模型能力、推理優(yōu)化和系統(tǒng)工程能力整體下沉，直接嵌入企業(yè)自身的IT基礎(chǔ)設(shè)施里。

NVIDIA在GTC 2026上發(fā)布的Nemotron開源模型家族（（Nemotron 3 Ultra、Omni、VoiceChat），以及配套的NeMo框架，正好提供了一整套可以落地的本地化Agentic AI底座。

01 醫(yī)療Agent突破從三重瓶頸

進(jìn)一步拆解，Nemotron優(yōu)先解決的，是幾個(gè)具體的系統(tǒng)瓶頸。

第一個(gè)瓶頸是吞吐量。醫(yī)療場(chǎng)景中Agent的作用是長(zhǎng)鏈路、多步驟的任務(wù)執(zhí)行，即病歷生成、文獻(xiàn)檢索、路徑驗(yàn)證，其本質(zhì)上是持續(xù)的高強(qiáng)度推理負(fù)載。而這類任務(wù)會(huì)迅速放大Token消耗，使系統(tǒng)長(zhǎng)期運(yùn)行在高并發(fā)運(yùn)行狀態(tài)。

另外，為了保證穩(wěn)定性與推理能力，采用的需要大模型是FP16或BF16精度。但這種“高精度”的代價(jià)，是顯存占用和內(nèi)存帶寬壓力同步上升。一旦進(jìn)入高并發(fā)場(chǎng)景，很快就會(huì)觸碰硬件極限，吞吐量隨之下降。

而Blackwell架構(gòu)適配的NVFP4四位量化模型 Nemotron 3 Super提供了更有利的部署路徑。NVIDIA 最新發(fā)布的 Nemotron 3 Super采用混合Mamba-Transformer MoE架構(gòu)，具備120B 總參數(shù)和12B 活躍參數(shù)（每token調(diào)用12B ，所以不會(huì)大量占用顯存），并在訓(xùn)練與推理階段引入NVFP4 優(yōu)化。

這樣一來(lái)，更低的數(shù)據(jù)位寬能夠直接減少權(quán)重、激活值和相關(guān)計(jì)算過(guò)程帶來(lái)的顯存占用與帶寬壓力，從而讓同一套硬件支撐更大的batch和更高并發(fā)，提升整體吞吐效率。

截取自NVIDIA

第二個(gè)瓶頸，是時(shí)交互場(chǎng)景中的延遲。傳統(tǒng)AI語(yǔ)音交互采用串行管線。ASR轉(zhuǎn)錄、LLM生成、TTS合成，每一步都會(huì)有額外延遲。但是，在醫(yī)療場(chǎng)景中，這種延遲是災(zāi)難性的。

而Nemotron 3 VoiceChat將語(yǔ)音識(shí)別、理解與生成融合在單一系統(tǒng)中，并行處理，進(jìn)而延遲下降。但更重要的是，其讓交互模式發(fā)生變化，系統(tǒng)可以一邊“聽”，一邊“理解”，一邊生成響應(yīng)，從而支持打斷、插話等更接近真實(shí)醫(yī)患溝通的交互行為。

截取自NVIDIA

在同一層面上，新推出的Nemotron 3 Omni進(jìn)一步統(tǒng)一了多模態(tài)感知，將音頻、視覺(jué)與語(yǔ)言理解歸納到同一潛在空間中，減少了外部模型調(diào)用與調(diào)度復(fù)雜度，也提高了跨模態(tài)信息提取的一致性。

第三個(gè)瓶頸，是可靠性。

在強(qiáng)監(jiān)管的場(chǎng)景下，醫(yī)療場(chǎng)景中Agent的風(fēng)險(xiǎn)在于“生成錯(cuò)誤信息卻無(wú)法被察覺(jué)”。因此，單純依賴模型本身的能力無(wú)法滿足要求，必須在系統(tǒng)層引入安全機(jī)制。

Nemotron在這一層采用的是“雙層控制”。一層是模型安全，對(duì)多模態(tài)輸入輸出進(jìn)行實(shí)時(shí)檢測(cè)；另一層是檢索增強(qiáng)生成（RAG），將外部權(quán)威知識(shí)庫(kù)與生成過(guò)程強(qiáng)綁定，確保輸出具備可追溯依據(jù)。

這實(shí)際上是在把生成式AI，從“概率輸出”轉(zhuǎn)變?yōu)椤笆芗s束的生成”。

當(dāng)這些底層模型通過(guò)NVIDIA Agent Toolkit（包含NeMo Gym、NeMo RL、TensorRT、Triton以及CUDA-X數(shù)據(jù)科學(xué)庫(kù)如cuDF、cuML、cuVS）集成后，產(chǎn)生了顯著的系統(tǒng)級(jí)的降本增效。

截取自GitHub

目前，Heidi Health通過(guò)Nemotron Speech模型進(jìn)行臨床文檔記錄，將系統(tǒng)延遲壓縮75%，同時(shí)降低64%的運(yùn)營(yíng)成本。IQVIA依托該架構(gòu)部署了超150個(gè)專業(yè)智能體用于縮減臨床試驗(yàn)中心選址等復(fù)雜工作負(fù)載。

02 “算力換數(shù)據(jù)”重構(gòu)生命科學(xué)的計(jì)算底座

Nemotron解決了是醫(yī)療Agent進(jìn)入真實(shí)工作流時(shí)的系統(tǒng)問(wèn)題。這一層處理的是部署端，即模型如何在高強(qiáng)度、強(qiáng)監(jiān)管場(chǎng)景下穩(wěn)定運(yùn)行。

但對(duì)NVIDIA來(lái)說(shuō)，沿著同樣的路徑，其正在把GPU、模型框架與推理優(yōu)化能力繼續(xù)向生命科學(xué)更上游推進(jìn)，覆蓋蛋白質(zhì)結(jié)構(gòu)預(yù)測(cè)、分子生成設(shè)計(jì)以及大規(guī)?；蚪M數(shù)據(jù)處理。

這一場(chǎng)景對(duì)應(yīng)的是另一類計(jì)算挑戰(zhàn)：一部分?jǐn)?shù)據(jù)生成過(guò)慢，一部分候選空間過(guò)大，還有一部分?jǐn)?shù)據(jù)處理鏈路本身已經(jīng)逼近傳統(tǒng)CPU體系的上限。

NVIDIA給出的解法，仍然是用底層計(jì)算重寫任務(wù)流程，再把原本受限于實(shí)驗(yàn)周期或串行處理能力的環(huán)節(jié)，壓縮進(jìn)GPU加速的統(tǒng)一管線里。

最先被改寫的是蛋白質(zhì)結(jié)構(gòu)預(yù)測(cè)。在真實(shí)生物系統(tǒng)中，蛋白質(zhì)很少以孤立單體存在，更多功能依賴復(fù)合體層面的相互作用。但從單體結(jié)構(gòu)走向復(fù)合體預(yù)測(cè)，計(jì)算復(fù)雜度會(huì)快速上升，對(duì)模型表達(dá)能力、空間約束建模和推理效率都提出更高要求。

圍繞這一問(wèn)題，NVIDIA聯(lián)合DeepMind、EMBL-EBI以及首爾大學(xué)團(tuán)隊(duì)，對(duì)AlphaFold數(shù)據(jù)庫(kù)進(jìn)行了大規(guī)模擴(kuò)展，一次性生成約3000萬(wàn)個(gè)蛋白質(zhì)復(fù)合物結(jié)構(gòu)預(yù)測(cè)，并新增170萬(wàn)個(gè)高置信度結(jié)果。

這其中的意義在于其呈現(xiàn)了NVIDIA在生命科學(xué)上的一條明確技術(shù)路徑：通過(guò)GPU算力、等變神經(jīng)網(wǎng)絡(luò)庫(kù)和推理優(yōu)化框架協(xié)同，把高復(fù)雜度結(jié)構(gòu)預(yù)測(cè)任務(wù)轉(zhuǎn)化為可規(guī)?；瘓?zhí)行的數(shù)據(jù)生成流程。

這其中，cuEquivariance承擔(dān)的是底層建模優(yōu)化。傳統(tǒng)方法需要通過(guò)大量訓(xùn)練去逼近三維空間中的旋轉(zhuǎn)和平移不變性，這會(huì)帶來(lái)參數(shù)冗余和額外計(jì)算開銷。cuEquivariance這類等變神經(jīng)網(wǎng)絡(luò)庫(kù)，則是在算子層直接引入物理對(duì)稱性，讓模型從起點(diǎn)就滿足空間約束，減少無(wú)效計(jì)算。

再疊加TensorRT對(duì)推理鏈路的壓縮與優(yōu)化，整個(gè)OpenFold管線實(shí)現(xiàn)了超過(guò)100倍的速度提升。對(duì)應(yīng)到結(jié)果層面，這3000萬(wàn)個(gè)復(fù)合物結(jié)構(gòu)預(yù)測(cè)，本質(zhì)上形成了一批可直接調(diào)用的預(yù)計(jì)算結(jié)構(gòu)數(shù)據(jù)。

這正是“以算力換數(shù)據(jù)”在NVIDIA生命科學(xué)技術(shù)棧中的一個(gè)落點(diǎn)——通過(guò)對(duì)模型、算子和推理框架的重寫，把原本高度受實(shí)驗(yàn)供給限制的結(jié)構(gòu)空間，先用計(jì)算批量展開。

同樣的邏輯繼續(xù)延伸到生成式生物設(shè)計(jì)場(chǎng)景中。

在BioNeMo體系中，模型不再是“一次推理給出答案”，而是引入了“測(cè)試時(shí)計(jì)算”（Test-Time Compute）機(jī)制。以維亞生物與NVIDIA合作，優(yōu)化的Proteina Complexa模型為例，在生成候選結(jié)合劑結(jié)構(gòu)之后，系統(tǒng)不會(huì)直接輸出結(jié)果，而是通過(guò)內(nèi)置的物理與熱力學(xué)評(píng)分體系進(jìn)行多輪評(píng)估與迭代優(yōu)化。

推理時(shí)間在這里不再是成本，而是能力的一部分——計(jì)算資源投入越多，搜索空間覆蓋越充分，生成結(jié)果越接近真實(shí)物理約束。

這意味著，模型從“生成答案”，轉(zhuǎn)向“生成并驗(yàn)證答案”。原本屬于實(shí)驗(yàn)階段的一部分篩選工作，被前移到計(jì)算過(guò)程中完成，從而顯著縮小進(jìn)入濕實(shí)驗(yàn)驗(yàn)證的候選空間。

基因編輯與RNA藥物的突破，依賴于大規(guī)模、高吞吐量的基因組學(xué)分析。但傳統(tǒng)基于CPU集群的BWA-GATK比對(duì)變異調(diào)用在面對(duì)海量數(shù)據(jù)時(shí)往往陷入宕機(jī)。

Basecamp Research構(gòu)建的Trillion Gene Atlas項(xiàng)目，其BaseData數(shù)據(jù)集規(guī)模已擴(kuò)展至所有公共數(shù)據(jù)庫(kù)總和的10倍以上。為處理高達(dá)千萬(wàn)億級(jí)的DNA堿基對(duì)，其系統(tǒng)全面接入NVIDIA Parabricks計(jì)算套件，通過(guò)對(duì)深度學(xué)習(xí)變異檢測(cè)算法進(jìn)行底層GPU并行化重寫，提供了10倍的數(shù)據(jù)處理加速，將原本需要20年的分析任務(wù)強(qiáng)行壓縮至兩年內(nèi)完成。

在單細(xì)胞系統(tǒng)生物學(xué)領(lǐng)域，構(gòu)建具備高度動(dòng)態(tài)仿真能力的“虛擬細(xì)胞模型”需要大量多組學(xué)訓(xùn)練矩陣。Tahoe Therapeutics構(gòu)建了全球最大規(guī)模獨(dú)立單細(xì)胞數(shù)據(jù)集Tahoe-100M，涵蓋1億個(gè)細(xì)胞的高維度特征數(shù)據(jù)。

03 3500塊Blackwell，羅氏制藥的AI工廠“底座”

當(dāng)?shù)讓佑?jì)算在單一節(jié)點(diǎn)釋放出巨大效能后，跨國(guó)制藥巨頭面臨的挑戰(zhàn)迅速就轉(zhuǎn)向了系統(tǒng)整合。

具體來(lái)說(shuō)，就是如何將AI能力深度嵌入藥物發(fā)現(xiàn)、診斷到生產(chǎn)制造的全價(jià)值鏈。要完成這種規(guī)?；詈希闵⒉少?gòu)云服務(wù)遠(yuǎn)遠(yuǎn)不夠，企業(yè)須建設(shè)可承載核心研發(fā)與制造任務(wù)的專屬計(jì)算底座，即“企業(yè)級(jí)AI工廠”。

目前，羅氏正在推進(jìn)制藥與診斷行業(yè)已公開最大規(guī)模的AI基礎(chǔ)設(shè)施部署之一。其算力底座橫跨美國(guó)與歐洲，采用融合公有云與本地?cái)?shù)據(jù)中心的混合架構(gòu)，整體GPU規(guī)模已超過(guò)3500塊NVIDIA Blackwell。

這樣的設(shè)計(jì)邏輯，在于中心化集群承擔(dān)大模型訓(xùn)練與高吞吐計(jì)算任務(wù)，全球研發(fā)節(jié)點(diǎn)則在本地環(huán)境中處理敏感數(shù)據(jù)、執(zhí)行微調(diào)與推理，從而兼顧算力集中調(diào)度、低延遲交互與合規(guī)要求。

算力底座成形后，最先被重塑的是藥物發(fā)現(xiàn)流程。羅氏及其子公司Genentech持續(xù)強(qiáng)化“實(shí)驗(yàn)室—數(shù)據(jù)—模型”閉環(huán)戰(zhàn)略（Lab-in-the-Loop），將實(shí)驗(yàn)反饋、數(shù)據(jù)積累與模型迭代納入統(tǒng)一回路。目

目前，Genentech近90%的合格小分子項(xiàng)目已整合進(jìn)AI研發(fā)流程。依托BioNeMo平臺(tái)，研究人員能夠結(jié)合內(nèi)部專有數(shù)據(jù)微調(diào)分子模型，在更大化學(xué)空間中開展搜索與篩選。計(jì)算能力正在直接折算為研發(fā)時(shí)間：某腫瘤降解劑分子的設(shè)計(jì)效率提升約25%，某備用候選分子的開發(fā)周期也被壓縮至7個(gè)月。

說(shuō)研發(fā)端解決的是“更快找到候選品”，制造端面對(duì)的則是“更穩(wěn)定的做出來(lái)”。在復(fù)雜生物制劑生產(chǎn)中，物理產(chǎn)線上的試錯(cuò)、停機(jī)與重排代價(jià)極高。羅氏因此在制造網(wǎng)絡(luò)中引入數(shù)字孿生體系，利用NVIDIA Omniverse相關(guān)能力對(duì)工廠設(shè)計(jì)與流程進(jìn)行高保真建模、仿真和優(yōu)化。

在診斷場(chǎng)景的核心任務(wù)中，需要從海量數(shù)據(jù)中提取微弱而關(guān)鍵的疾病信號(hào)。羅氏部署了NVIDIA Parabricks以加速大規(guī)模數(shù)據(jù)洞察，在數(shù)字病理領(lǐng)域則借助相關(guān)視覺(jué)分析能力處理高分辨率圖像，識(shí)別細(xì)微疾病模式。與此同時(shí)，為提高數(shù)字健康場(chǎng)景中對(duì)話式AI的可靠性與合規(guī)性，羅氏還引入了NVIDIA NeMo Guardrails，對(duì)模型輸出建立系統(tǒng)級(jí)安全護(hù)欄。

由此可見，AI在醫(yī)療產(chǎn)業(yè)中的落地，已經(jīng)不再局限于模型訓(xùn)練中心或單一業(yè)務(wù)系統(tǒng)，而是進(jìn)一步深入到實(shí)驗(yàn)室、工廠和診斷終端等真實(shí)業(yè)務(wù)現(xiàn)場(chǎng)。

也正是在這一層面上，新的問(wèn)題隨之浮現(xiàn)，當(dāng)AI開始進(jìn)入高度動(dòng)態(tài)、強(qiáng)約束、需要實(shí)時(shí)感知與連續(xù)動(dòng)作執(zhí)行的物理環(huán)境中，原有的軟件式智能框架已經(jīng)難以覆蓋，醫(yī)療體系對(duì)“Physical AI”的需求開始迅速抬升。

04 真實(shí)數(shù)據(jù)+合成數(shù)據(jù)+仿真環(huán)境Physical AI進(jìn)入“手術(shù)室”

“Physical AI”在醫(yī)療體系中的定位，也許是最難被改造的部分。

手術(shù)操作、器械協(xié)同、院內(nèi)物流、床旁服務(wù)等任務(wù)面對(duì)的是高動(dòng)態(tài)環(huán)境、多傳感器輸入、強(qiáng)安全約束和低時(shí)延執(zhí)行要求。

然而，NVIDIA在GTC 2026給出的新方向，是以面向醫(yī)療場(chǎng)景的Physical AI全棧工具鏈，把數(shù)據(jù)、仿真、策略訓(xùn)練和邊緣部署接成一條閉環(huán)。

這套框架的起點(diǎn)，是先解決真實(shí)訓(xùn)練數(shù)據(jù)不足的問(wèn)題。

NVIDIA在GTC 2026發(fā)布的Open-H定義為全球最大的醫(yī)療機(jī)器人數(shù)據(jù)集，由約35家合作方共同構(gòu)建，包含776小時(shí)手術(shù)視頻、11類機(jī)器人系統(tǒng)形態(tài)和4類手術(shù)適應(yīng)癥。其意義在于為視覺(jué)流、操作過(guò)程與機(jī)器人動(dòng)作之間建立統(tǒng)一的訓(xùn)練基座，讓醫(yī)療機(jī)器人第一次擁有足夠規(guī)模的真實(shí)世界先驗(yàn)。

在真實(shí)數(shù)據(jù)之外，第二層是可擴(kuò)展的物理世界生成能力。

NVIDIA推出的Cosmos-H 模型家族，其中包括Cosmos-H-Surgical，基于NVIDIA Cosmos用于面向醫(yī)療場(chǎng)景的物理約束合成數(shù)據(jù)生成。

具體來(lái)說(shuō)，這一模型族可依據(jù)文本提示、參考圖像或視頻，以及配對(duì)的機(jī)器人運(yùn)動(dòng)學(xué)信息生成手術(shù)視頻；其不只服務(wù)于數(shù)據(jù)擴(kuò)增，也可用于評(píng)估機(jī)器人策略，方法是在給定當(dāng)前狀態(tài)和動(dòng)作條件下，預(yù)測(cè)手術(shù)環(huán)境的未來(lái)狀態(tài)。目前，Johnson & Johnson MedTech已將 Cosmos 與 Isaac for Healthcare 的解剖仿真結(jié)合，用于MONARCH泌尿外科平臺(tái)的后訓(xùn)練數(shù)據(jù)增強(qiáng)。

第三層是把語(yǔ)義理解直接映射到機(jī)器人動(dòng)作控制。NVIDIA在GTC 2026發(fā)布的 GR00T-H，是基于 NVIDIA Isaac GR00T N的視覺(jué)—語(yǔ)言—?jiǎng)幼髂Ｐ停╒LA）。其能夠接收臨床任務(wù)的文本指令，并生成運(yùn)動(dòng)命令（也就是action tokens），用于訓(xùn)練和評(píng)估在醫(yī)療環(huán)境中執(zhí)行復(fù)雜物理動(dòng)作的機(jī)器人。

為了讓這些模型能在接近真實(shí)醫(yī)院的環(huán)境中反復(fù)試煉，NVIDIA又在Isaac for Healthcare 中提供了Rheo blueprint。Rheo blueprint可用于構(gòu)建精確的醫(yī)院仿真環(huán)境，覆蓋臨床流程、設(shè)備交互、人員走動(dòng)和院內(nèi)物流，并支持兩條仿真路徑。

一條偏向快速拼裝環(huán)境與任務(wù)的Isaac Lab-Arena，適合院內(nèi)移動(dòng)、搬運(yùn)、協(xié)作等大場(chǎng)景任務(wù)；另一條偏向精細(xì)操作與大規(guī)模強(qiáng)化學(xué)習(xí)后訓(xùn)練的Isaac Lab，適合高精度操作策略開發(fā)。

這樣一來(lái)，開發(fā)者無(wú)需從零搭建底層仿真框架，就能把環(huán)境構(gòu)建、任務(wù)定義、評(píng)測(cè)與訓(xùn)練連接起來(lái)。

05 寫在最后

或許，對(duì)英偉達(dá)來(lái)說(shuō)，醫(yī)療并不僅僅是垂直賽道的擴(kuò)張，更是其對(duì)自身技術(shù)棧價(jià)值的深度驗(yàn)證。

醫(yī)療場(chǎng)景的苛刻程度極高。低延遲、強(qiáng)監(jiān)管、高可靠性、數(shù)據(jù)不可出境，這恰恰構(gòu)成了最難被復(fù)制的壓力測(cè)試。能在這里跑通的能力，要從模型、推理框架到系統(tǒng)工程的整套沉淀。

放到醫(yī)療本身來(lái)看，1100萬(wàn)的醫(yī)護(hù)人員缺口，不會(huì)靠AI徹底填滿，也不該用這個(gè)邏輯去要求。但更現(xiàn)實(shí)的期待是，用AI接管那些重復(fù)性高、負(fù)荷密集、容錯(cuò)空間極窄的工作，讓留下來(lái)的人力得以集中在真正需要人類判斷的地方。AI介入醫(yī)療是重新分配人類注意力的去向——讓醫(yī)生少做記錄員，多做決策者。

特別聲明

本文為澎湃號(hào)作者或機(jī)構(gòu)在澎湃新聞上傳并發(fā)布，僅代表該作者或機(jī)構(gòu)觀點(diǎn)，不代表澎湃新聞的觀點(diǎn)或立場(chǎng)，澎湃新聞僅提供信息發(fā)布平臺(tái)。申請(qǐng)澎湃號(hào)請(qǐng)用電腦訪問(wèn)http://renzheng.thepaper.cn。

我要舉報(bào)

#NVIDIA