下載客戶端

登錄

宇樹科技王興興：具身智能GPT時刻仍需2-3年，泛化能力不足是核心挑戰(zhàn)

2026-03-19 06:41

來源：澎湃新聞·澎湃號·湃客

聽全文

出品｜派財經(jīng)原創(chuàng)（ID：paicj314）

文：李唐

3月17日，在2026亞布力論壇上，宇樹科技創(chuàng)始人王興興發(fā)表主題演講。演講中，王興興拋出了兩項關(guān)鍵判斷：

一方面，他預(yù)計到今年年中的時候，全球尤其中國人形機器人應(yīng)該會跑得比人還快，比博爾特更快一些，百米沖刺的速度應(yīng)該可以跑到十秒以內(nèi)；

另一方面，他認(rèn)為具身智能行業(yè)距離真正的“GPT 時刻”仍需 2-3 年，只有當(dāng)機器人能在80%陌生場景中僅憑語言指令完成80%任務(wù)時，賽道才會迎來爆發(fā)式增長。

他同時指出，運動能力是機器人落地真實場景的前提，而模型泛化能力、數(shù)據(jù)效率與強化學(xué)習(xí)規(guī)模效應(yīng)，仍是制約行業(yè)跨越臨界點的核心瓶頸。

以下是公司研究室對王興興演講內(nèi)容的整理，在不改變原意的前提下，進行了一定程度的增刪修改：

初心與歷程

十年磨一劍

宇樹科技過去10年，一直專注于高性能足式和人形機器人的自主研發(fā)，從足式機器人到人形機器人，從實驗室研發(fā)到行業(yè)實際應(yīng)用，我們始終在做一件事情，就是讓機器人從能走到真正成為智能生產(chǎn)力的一部分，這也和我們長期專注的發(fā)展理念相契合。

宇樹科技是2016年成立的，到現(xiàn)在差不多快10年的時間。我本人最早接觸機器人研發(fā)，是在上海讀碩士期間，當(dāng)時做的XDog這款機器人，開創(chuàng)了目前全球范圍內(nèi)低成本、高性能足式機器人技術(shù)方案的先河。

其實我接觸人形機器人研發(fā)的時間更早，2009年我剛上大一，第一個寒假就做了一款小的雙足機器人，那也是我做的最早的一款機器人，當(dāng)時只花了200元人民幣，算下來我在機器人行業(yè)其實已經(jīng)做了十幾年的時間。

產(chǎn)品突破

從小巧靈活到工業(yè)級應(yīng)用

我們2023年開始正式研發(fā)仿生人形機器人，2024年發(fā)布的第二代人形機器人，在2024到2025年取得了全球非常矚目的成績，這款機器人也是目前全球出貨量最多的人形機器人，去年加起來在全球范圍大概出貨了5000臺。

這臺機器人最大的特點就是體型相對小巧，大概只有1.3米高，同時更加輕量化，關(guān)節(jié)自由度和靈活性都非常好，不管是中國還是海外市場，大家能看到的、大部分客戶在使用的人形機器人，基本上都是我們這款產(chǎn)品。

去年我們還發(fā)布了新一代的機器狗，這款是面向工業(yè)級應(yīng)用的，相比我們之前發(fā)布的產(chǎn)品，這款屬于中型款，具備防塵防水的特性，續(xù)航時間也非常長，充滿電空載續(xù)航可以達到20幾千米，硬指標(biāo)方面處于全球領(lǐng)先水平。

同時我們還發(fā)布了新一代更小巧的人形機器人，目前售價大概3萬元人民幣左右，在全球市場上非常有競爭力。

去年我們還發(fā)布了新一代的人形機器人H2，這款機器人尺寸更大，大概1.8米高。

目前市場上出貨量高、大家用得比較多的還是我們那款小的人形機器人，因為它用起來更方便、更安全，但在工業(yè)場合，甚至未來的農(nóng)業(yè)場景中，機器人需要做一些體力勞動，這就對機器人的尺寸和手臂力量有了更高的要求，H2就是針對這類場景研發(fā)的。

當(dāng)然更大的機器人也有個小缺點，因為力氣比較大，看起來會有點嚇人，所以大家看到1.7米或者1.8米的人形機器人，最好還是保持兩到3米的安全距離。

生態(tài)理念

讓技術(shù)真正普及

我們始終相信，想要讓一項技術(shù)真正普及起來，就像當(dāng)年的手機和電腦一樣，最大的挑戰(zhàn)之一就是要讓更多人用起來、更多人采購，讓更多的開發(fā)者參與進來，大家共同努力把這個行業(yè)做好。

大家都知道，二十幾年前個人電腦剛出來的時候，對普通老百姓來說其實沒什么實際用處，最早大家用電腦也大多是打游戲。

目前的人形機器人其實也處于這個相對早期的階段，現(xiàn)在就讓它在家庭或工廠里大規(guī)模應(yīng)用還不太現(xiàn)實，但目前不管是娛樂場景還是一些商業(yè)場景，人形機器人其實已經(jīng)開始落地使用了。

我們的目標(biāo)也很簡單明確，就是希望全世界的開發(fā)者都能在我們的平臺上參與研發(fā)，讓每年、每個月都有更多的應(yīng)用和軟件被開發(fā)出來，這樣機器人的能力、功能會越來越強，受眾也會越來越多，整個行業(yè)的規(guī)模體量也能快速發(fā)展。

運動能力突破

從走路到功夫

去年8月份，我們參加了北京人形機器人運動會，這也是全球首屆人形機器人運動會，我們拿下了1500米、400米、4×100米障礙賽的冠軍，是全場獲得冠軍數(shù)和總獎牌數(shù)最多的公司。

當(dāng)時參賽的這款機器人最快速度能達到五點幾米每秒，雖然100米還跑不過人類，但1500米能跑到六分多鐘，基本上比我們公司所有人都跑得快。

我預(yù)計再過幾個月到年中，全球尤其是中國的人形機器人，百米沖刺速度就能超過人類，甚至比博爾特更快一些，跑進10秒以內(nèi)，這是我覺得今年很快就能實現(xiàn)的事。

另外，去年我們也完成了機器人軟件的諸多升級，實現(xiàn)了機器人在任意動作情況下的自主恢復(fù)，我始終認(rèn)為，大規(guī)模的機器人普及，必然要求它具備極高的穩(wěn)定性，如果一臺機器人連走路、跳舞都做不好，就根本不可能實現(xiàn)大規(guī)模應(yīng)用。

所以我們在機器人穩(wěn)定性上做了大量的完善工作，比如機器人在做各種動作時摔倒后能自己恢復(fù)，這也是我們的機器人能登上春晚，完成20幾臺機器人全自動表演的原因，春晚的表演對機器人的穩(wěn)定性和動作一致性要求非常高，而我們的技術(shù)正好能滿足這個要求。

現(xiàn)在我們的機器人還能通過數(shù)據(jù)采集和AI訓(xùn)練，學(xué)會人類能做的各種動作，大家如果有空的話，也可以去我們的展區(qū)看看更多機器人的展示。

最近幾年我們在機器人AI領(lǐng)域，尤其是具身強化領(lǐng)域取得了比較明顯的進步：2023年的時候，機器人大概只能簡單走路、簡單跑一下；2024年就能完成一些相對復(fù)雜的舞蹈動作；2025年最大的升級就是實現(xiàn)了功夫模式，機器人可以打各種功夫。

理論上來說，現(xiàn)在我們1.8米的人形機器人，普通人其實已經(jīng)打不過了，能看到人形機器人的技術(shù)進步非常顯著，今年還會有更多的精彩成果和大家見面。

春晚亮相

科技與文化的全球傳播

今年春晚我們的機器人舞蹈節(jié)目也取得了很好的成績，節(jié)目里我們讓機器人復(fù)刻了很多復(fù)雜的動作，比如單腿的連續(xù)空翻、兩步上墻，這些動作對機器人的硬件和穩(wěn)定性要求都非常高。

這個節(jié)目不僅在國內(nèi)備受矚目，在海外的關(guān)注度也非常高，那一周海外的各類網(wǎng)站基本都被這個節(jié)目刷屏，很多國家的官方電視臺也做了相關(guān)報道。

我們在義烏分會場的節(jié)目還結(jié)合了中國的傳統(tǒng)文化形象，這個機器人功夫節(jié)目，不只是科技的呈現(xiàn)，更多的是中國傳統(tǒng)文化的呈現(xiàn)，中國功夫在海外有很高的認(rèn)可度，所以這個節(jié)目也是中國文化出海的一個很好的載體。

為了登上春晚這個舞臺，我們對機器人也做了很多改進：比如在機器人頭部加裝了128線的3D激光雷達，提升了機器人在復(fù)雜場景下的定位能力；訓(xùn)練了預(yù)訓(xùn)練的RL模型，讓機器人的各種動作能實現(xiàn)復(fù)雜的銜接。

目前市面上其他廠家的AI訓(xùn)練模型，動作是不能隨意切換的，機器人在做一個動作時沒法中途暫停，必須把動作做完，但我們目前的算法可以實現(xiàn)動作中途直接暫停，暫停后還能切換到任何動作，大幅提升了動作組合的靈活性，我們還開發(fā)了機器人全身的協(xié)調(diào)能力。

還有一個很有趣的點，我們?yōu)榱舜和砉?jié)目開發(fā)了集群定位和跑位的算法。

之前2025年初春晚的機器人表演，機器人是慢慢走上來的，視覺效果不夠好，所以這次我們做了跑位算法，讓機器人在變隊形的時候可以跑步上去，讓動作的銜接更自然，而且這個視頻是沒有加速的，機器人的走位速度很快，還能變換各種隊形。

全身遙操作系統(tǒng)

數(shù)據(jù)采集與遠程操控

前段時間我們還開發(fā)了一款更小巧的機器人機構(gòu)，基本上我們每年都會推出一兩款新產(chǎn)品。

去年下半年我們還開發(fā)了全身遙操作系統(tǒng)，之前機器人的很多表演，包括武術(shù)動作，都是提前預(yù)訓(xùn)練的，先采集人的動作再進行AI訓(xùn)練，和舞蹈節(jié)目一樣是提前編排好的，動作不能隨時變化，而這套全身遙操作系統(tǒng)可以實現(xiàn)動作的實時變化，人在做什么動作，機器人就能同步做什么動作。

這個技術(shù)有兩個非常實用的功能：第一個是能實現(xiàn)人形機器人大規(guī)模的數(shù)據(jù)采集，現(xiàn)在的AI都是靠數(shù)據(jù)驅(qū)動的，數(shù)據(jù)的質(zhì)量和數(shù)量直接決定了AI的能力，而目前人形機器人的相關(guān)數(shù)據(jù)非常稀缺，通過這套系統(tǒng)，我們可以部署大規(guī)模的數(shù)據(jù)采集。

如果今年年底之前能部署幾千臺甚至1萬臺人形機器人，每天采集十個小時的數(shù)據(jù)，那未來一兩年甚至兩三年，人形機器人的數(shù)據(jù)稀缺問題就能得到徹底解決。

第二個實用功能是可以實現(xiàn)機器人的遠程操控，比如我在外地，就可以直接控制杭州的一臺機器人，這樣甚至都不用回公司上班，不過目前這個技術(shù)還面臨著通信延遲等一些挑戰(zhàn)。

工業(yè)落地

從試點到自產(chǎn)自造

可能大家覺得我們的機器人更多是出現(xiàn)在表演場景，但實際上過去幾年，我們的機器人已經(jīng)在工業(yè)領(lǐng)域做了很多部署和試點落地應(yīng)用。

比如我們的機器人已經(jīng)能在自己的工廠里裝配機器人的關(guān)節(jié)電機，我們始終相信，未來當(dāng)機器人真正實現(xiàn)普及應(yīng)用時，我們的工廠里會是機器人自己生產(chǎn)自己，這會帶來生產(chǎn)力的大幅提升。

過去幾年我們還和一些頭部的汽車公司展開了合作，不過這個領(lǐng)域目前在全球范圍內(nèi)還都處于試點階段，因為機器人的工作效率和成功率還面臨著不少挑戰(zhàn)，目前的AI能力還需要進一步提升。

核心理念

運動能力是干活的前提

我們公司一直貫徹的邏輯就是運動和干活并行推動，因為我們相信運動能力是機器人真正能干活的先決必要條件。

未來人形機器人想要在家庭或者農(nóng)業(yè)場景真正普及應(yīng)用，連跳舞、打功夫都做不到是不可能的，這就和人類的運動員一樣，運動能力越強，干活的能力也會越強，當(dāng)人形機器人的運動能力足夠豐富，能做各種各樣的動作時，我們只需要把這些動作組合在一起，機器人就能完成各種工作任務(wù)。

行業(yè)進步

全球共創(chuàng)的成果

過去一兩年，在很多客戶的共同努力下，整個人形機器人行業(yè)的技術(shù)都取得了快速進步，去年全球范圍內(nèi)的人形機器人技術(shù)都有顯著提升。

我們公司能有這樣的進步，很大一部分原因是全世界有非常多的客戶，包括一些頂尖的科技公司、實驗室和高校，都在使用我們的機器人開發(fā)各種軟件，英偉達還開源了很多相關(guān)軟件，這些都推動了整個行業(yè)的技術(shù)進步，今年行業(yè)的技術(shù)還會繼續(xù)快速發(fā)展。

在未來，如果真正的AI具身智能達到一個臨界點，我們公司的機器人出貨量可能會一下子飆升到一年幾百萬臺，這是非常有可能的。

目前行業(yè)的發(fā)展靠的是全球大家共創(chuàng)的努力，并不是某一家公司的單獨貢獻，是全球從業(yè)者的共同努力，加速了整個人形機器人行業(yè)的技術(shù)迭代。

仍需2-3年時間

具身智能“GPT時刻”

最近幾年，不管是機器人領(lǐng)域還是中國的AI領(lǐng)域，都取得了非常明顯的技術(shù)進步。

我個人印象比較深的是今年1月份字節(jié)跳動發(fā)布的Seedance2.0視頻生成軟件，這款軟件的效果非常好，是目前全球最好的視頻生成軟件，沒有之一，在全球范圍內(nèi)遙遙領(lǐng)先。

我相信在未來幾年，具身智能的軟件也能實現(xiàn)這樣的技術(shù)突破，但目前來說還差一點火候，想要讓具身智能或者機器人迎來屬于自己的GPT時刻，還面臨著一些挑戰(zhàn)，其中最大的挑戰(zhàn)就是目前AI模型的泛化能力不夠。

具身智能的真正GPT時刻目前還差一點火候，但我覺得也快了。

目前行業(yè)里有些人比較樂觀，預(yù)估18個月就能實現(xiàn)，我可能稍微悲觀一點，覺得至少需要兩到3年的時間，但這個過程肯定也會非?？?。

我個人對具身智能的GPT時刻做了一個簡單的定義：未來如果有一天，一個機器人的AI模型，可以在80%左右的陌生場景中，通過語言和文字指令，實現(xiàn)80%的任務(wù)，那就差不多達到了具身智能的GPT時刻。

比如說，我把一臺人形機器人帶到一個它完全沒有見過的場景，它也不認(rèn)識場景里的人，我跟它說"幫忙把這瓶水帶給某人"或者"幫忙找一支筆過來"，它能完全自主地完成這些任務(wù)，不需要提前建圖，也不需要提前預(yù)設(shè)程序，那我覺得就真正實現(xiàn)了具身智能的GPT時刻，整個行業(yè)也會迎來真正的爆發(fā)期。

技術(shù)路線

世界模型與VIA模型

目前整個人形機器人行業(yè)在全球范圍內(nèi)非?；馃?，最近幾年也取得了很大的技術(shù)進步，但同時也面臨著不少的挑戰(zhàn)。

目前全球范圍內(nèi)具身智能或者機器人領(lǐng)域的模型進步，主要有兩個流派：一個是VIA模型，就是在語言模型或者文字模型的基礎(chǔ)上，再把機器人模型加進去；還有一個是世界模型，大家可能也聽過，就是通過對世界的預(yù)估來建模，再推動機器人的動作實現(xiàn)。

我個人覺得世界模型，包括基于視頻生成的世界模型，都是非常有發(fā)展可能性的，這也是我們?nèi)ツ觊_源了基于視頻生成的世界模型的原因，我個人非?？春没谝曨l生成的世界模型的發(fā)展。

如果讓AI生成模型生成一個機器人在家里干活的視頻，當(dāng)視頻的質(zhì)量足夠好時，只要把視頻里的動作投射到機器人上，機器人就能完成相應(yīng)的干活任務(wù)，這個想法非常簡單直接，但目前還面臨著一些挑戰(zhàn)，最大的挑戰(zhàn)就是視頻里的動作和機器人的實際動作沒辦法很好地對齊和統(tǒng)一，這也是目前全球行業(yè)都面臨的最大挑戰(zhàn)。

一旦視頻生成的動作和模型能與機器人實現(xiàn)統(tǒng)一，這個問題就能從根本上解決，機器人計算模型也就基本上可以誕生了。去年我們也開源了一個基于VIA模型的相關(guān)技術(shù)，目前全球范圍內(nèi)做這個流派的人也更多一點。

核心挑戰(zhàn)

泛化能力不足

目前對于機器人來說，如果是提前訓(xùn)練過的一個或幾個場景，它的工作成功率基本上能達到100%，但如果換一個陌生場景，成功率就會大幅下跌，所以我們必須提升人形機器人或具身智能的泛化能力。

首先要提高模型的表達能力，如果模型本身的表達能力或者能實現(xiàn)的動作豐富度不夠，泛化能力自然也無從談起。

其次要提高對數(shù)據(jù)的利用率，語言模型或多模態(tài)模型有互聯(lián)網(wǎng)上的大量數(shù)據(jù)作為支撐，但機器人領(lǐng)域的相關(guān)數(shù)據(jù)非常稀缺，所以我們要在有限的數(shù)據(jù)情況下，盡可能提升數(shù)據(jù)的利用率，這對整個行業(yè)都非常有價值。

第三，強化學(xué)習(xí)的一些泛化效應(yīng)也需要進一步提升。

為了解決上述的這些問題，最關(guān)鍵的一點還是要全球合作。

現(xiàn)在的AI或者機器人的發(fā)展，都不是靠單家公司能實現(xiàn)的，尤其是AI領(lǐng)域，目前都是全球共創(chuàng)的結(jié)果。

過去幾年大家能看到，AI領(lǐng)域的發(fā)展就是這家公司今天做出一點貢獻，那家公司明天取得一些突破，所以最關(guān)鍵的還是通過全球合作，共同推動這個產(chǎn)業(yè)的進步。

試想一下，在當(dāng)下的AI和具身智能機器人時代，如果再早個5年或者晚個5年，其實都不會有這么好的發(fā)展機會。

特別聲明

本文為澎湃號作者或機構(gòu)在澎湃新聞上傳并發(fā)布，僅代表該作者或機構(gòu)觀點，不代表澎湃新聞的觀點或立場，澎湃新聞僅提供信息發(fā)布平臺。申請澎湃號請用電腦訪問http://renzheng.thepaper.cn。

我要舉報

#行業(yè)