欧美成人A片免费|日韩无码一级av|一级黄色大片在线播放|黄片视频在线观看无码|亚洲精品成人无码影视|婷婷五月天视频网站|日韩三级AV在线播放|姓爱av在线婷婷春色五月天|真人全黃色录像免费特黄片|日本无码黄在线观看下载

  • +1

宇樹科技王興興:具身智能GPT時刻仍需2-3年,泛化能力不足是核心挑戰(zhàn)

2026-03-19 06:41
來源:澎湃新聞·澎湃號·湃客
聽全文
字號

出品|派財經(jīng)原創(chuàng)(ID:paicj314)

文:李唐

3月17日,在2026亞布力論壇上,宇樹科技創(chuàng)始人王興興發(fā)表主題演講。演講中,王興興拋出了兩項關(guān)鍵判斷:

一方面,他預(yù)計到今年年中的時候,全球尤其中國人形機器人應(yīng)該會跑得比人還快,比博爾特更快一些,百米沖刺的速度應(yīng)該可以跑到十秒以內(nèi);

另一方面,他認(rèn)為具身智能行業(yè)距離真正的“GPT 時刻”仍需 2-3 年,只有當(dāng)機器人能在80%陌生場景中僅憑語言指令完成80%任務(wù)時,賽道才會迎來爆發(fā)式增長。

他同時指出,運動能力是機器人落地真實場景的前提,而模型泛化能力、數(shù)據(jù)效率與強化學(xué)習(xí)規(guī)模效應(yīng),仍是制約行業(yè)跨越臨界點的核心瓶頸。

以下是公司研究室對王興興演講內(nèi)容的整理,在不改變原意的前提下,進行了一定程度的增刪修改:

初心與歷程

十年磨一劍

宇樹科技過去10年,一直專注于高性能足式和人形機器人的自主研發(fā),從足式機器人到人形機器人,從實驗室研發(fā)到行業(yè)實際應(yīng)用,我們始終在做一件事情,就是讓機器人從能走到真正成為智能生產(chǎn)力的一部分,這也和我們長期專注的發(fā)展理念相契合。

宇樹科技是2016年成立的,到現(xiàn)在差不多快10年的時間。我本人最早接觸機器人研發(fā),是在上海讀碩士期間,當(dāng)時做的XDog這款機器人,開創(chuàng)了目前全球范圍內(nèi)低成本、高性能足式機器人技術(shù)方案的先河。

其實我接觸人形機器人研發(fā)的時間更早,2009年我剛上大一,第一個寒假就做了一款小的雙足機器人,那也是我做的最早的一款機器人,當(dāng)時只花了200元人民幣,算下來我在機器人行業(yè)其實已經(jīng)做了十幾年的時間。

產(chǎn)品突破

從小巧靈活到工業(yè)級應(yīng)用

我們2023年開始正式研發(fā)仿生人形機器人,2024年發(fā)布的第二代人形機器人,在2024到2025年取得了全球非常矚目的成績,這款機器人也是目前全球出貨量最多的人形機器人,去年加起來在全球范圍大概出貨了5000臺。

這臺機器人最大的特點就是體型相對小巧,大概只有1.3米高,同時更加輕量化,關(guān)節(jié)自由度和靈活性都非常好,不管是中國還是海外市場,大家能看到的、大部分客戶在使用的人形機器人,基本上都是我們這款產(chǎn)品。

去年我們還發(fā)布了新一代的機器狗,這款是面向工業(yè)級應(yīng)用的,相比我們之前發(fā)布的產(chǎn)品,這款屬于中型款,具備防塵防水的特性,續(xù)航時間也非常長,充滿電空載續(xù)航可以達到20幾千米,硬指標(biāo)方面處于全球領(lǐng)先水平。

同時我們還發(fā)布了新一代更小巧的人形機器人,目前售價大概3萬元人民幣左右,在全球市場上非常有競爭力。

去年我們還發(fā)布了新一代的人形機器人H2,這款機器人尺寸更大,大概1.8米高。

目前市場上出貨量高、大家用得比較多的還是我們那款小的人形機器人,因為它用起來更方便、更安全,但在工業(yè)場合,甚至未來的農(nóng)業(yè)場景中,機器人需要做一些體力勞動,這就對機器人的尺寸和手臂力量有了更高的要求,H2就是針對這類場景研發(fā)的。

當(dāng)然更大的機器人也有個小缺點,因為力氣比較大,看起來會有點嚇人,所以大家看到1.7米或者1.8米的人形機器人,最好還是保持兩到3米的安全距離。

生態(tài)理念

讓技術(shù)真正普及

我們始終相信,想要讓一項技術(shù)真正普及起來,就像當(dāng)年的手機和電腦一樣,最大的挑戰(zhàn)之一就是要讓更多人用起來、更多人采購,讓更多的開發(fā)者參與進來,大家共同努力把這個行業(yè)做好。

大家都知道,二十幾年前個人電腦剛出來的時候,對普通老百姓來說其實沒什么實際用處,最早大家用電腦也大多是打游戲。

目前的人形機器人其實也處于這個相對早期的階段,現(xiàn)在就讓它在家庭或工廠里大規(guī)模應(yīng)用還不太現(xiàn)實,但目前不管是娛樂場景還是一些商業(yè)場景,人形機器人其實已經(jīng)開始落地使用了。

我們的目標(biāo)也很簡單明確,就是希望全世界的開發(fā)者都能在我們的平臺上參與研發(fā),讓每年、每個月都有更多的應(yīng)用和軟件被開發(fā)出來,這樣機器人的能力、功能會越來越強,受眾也會越來越多,整個行業(yè)的規(guī)模體量也能快速發(fā)展。

運動能力突破

從走路到功夫

去年8月份,我們參加了北京人形機器人運動會,這也是全球首屆人形機器人運動會,我們拿下了1500米、400米、4×100米障礙賽的冠軍,是全場獲得冠軍數(shù)和總獎牌數(shù)最多的公司。

當(dāng)時參賽的這款機器人最快速度能達到五點幾米每秒,雖然100米還跑不過人類,但1500米能跑到六分多鐘,基本上比我們公司所有人都跑得快。

我預(yù)計再過幾個月到年中,全球尤其是中國的人形機器人,百米沖刺速度就能超過人類,甚至比博爾特更快一些,跑進10秒以內(nèi),這是我覺得今年很快就能實現(xiàn)的事。

另外,去年我們也完成了機器人軟件的諸多升級,實現(xiàn)了機器人在任意動作情況下的自主恢復(fù),我始終認(rèn)為,大規(guī)模的機器人普及,必然要求它具備極高的穩(wěn)定性,如果一臺機器人連走路、跳舞都做不好,就根本不可能實現(xiàn)大規(guī)模應(yīng)用。

所以我們在機器人穩(wěn)定性上做了大量的完善工作,比如機器人在做各種動作時摔倒后能自己恢復(fù),這也是我們的機器人能登上春晚,完成20幾臺機器人全自動表演的原因,春晚的表演對機器人的穩(wěn)定性和動作一致性要求非常高,而我們的技術(shù)正好能滿足這個要求。

現(xiàn)在我們的機器人還能通過數(shù)據(jù)采集和AI訓(xùn)練,學(xué)會人類能做的各種動作,大家如果有空的話,也可以去我們的展區(qū)看看更多機器人的展示。

最近幾年我們在機器人AI領(lǐng)域,尤其是具身強化領(lǐng)域取得了比較明顯的進步:2023年的時候,機器人大概只能簡單走路、簡單跑一下;2024年就能完成一些相對復(fù)雜的舞蹈動作;2025年最大的升級就是實現(xiàn)了功夫模式,機器人可以打各種功夫。

理論上來說,現(xiàn)在我們1.8米的人形機器人,普通人其實已經(jīng)打不過了,能看到人形機器人的技術(shù)進步非常顯著,今年還會有更多的精彩成果和大家見面。

春晚亮相

科技與文化的全球傳播

今年春晚我們的機器人舞蹈節(jié)目也取得了很好的成績,節(jié)目里我們讓機器人復(fù)刻了很多復(fù)雜的動作,比如單腿的連續(xù)空翻、兩步上墻,這些動作對機器人的硬件和穩(wěn)定性要求都非常高。

這個節(jié)目不僅在國內(nèi)備受矚目,在海外的關(guān)注度也非常高,那一周海外的各類網(wǎng)站基本都被這個節(jié)目刷屏,很多國家的官方電視臺也做了相關(guān)報道。

我們在義烏分會場的節(jié)目還結(jié)合了中國的傳統(tǒng)文化形象,這個機器人功夫節(jié)目,不只是科技的呈現(xiàn),更多的是中國傳統(tǒng)文化的呈現(xiàn),中國功夫在海外有很高的認(rèn)可度,所以這個節(jié)目也是中國文化出海的一個很好的載體。

為了登上春晚這個舞臺,我們對機器人也做了很多改進:比如在機器人頭部加裝了128線的3D激光雷達,提升了機器人在復(fù)雜場景下的定位能力;訓(xùn)練了預(yù)訓(xùn)練的RL模型,讓機器人的各種動作能實現(xiàn)復(fù)雜的銜接。

目前市面上其他廠家的AI訓(xùn)練模型,動作是不能隨意切換的,機器人在做一個動作時沒法中途暫停,必須把動作做完,但我們目前的算法可以實現(xiàn)動作中途直接暫停,暫停后還能切換到任何動作,大幅提升了動作組合的靈活性,我們還開發(fā)了機器人全身的協(xié)調(diào)能力。

還有一個很有趣的點,我們?yōu)榱舜和砉?jié)目開發(fā)了集群定位和跑位的算法。

之前2025年初春晚的機器人表演,機器人是慢慢走上來的,視覺效果不夠好,所以這次我們做了跑位算法,讓機器人在變隊形的時候可以跑步上去,讓動作的銜接更自然,而且這個視頻是沒有加速的,機器人的走位速度很快,還能變換各種隊形。

全身遙操作系統(tǒng)

數(shù)據(jù)采集與遠程操控

前段時間我們還開發(fā)了一款更小巧的機器人機構(gòu),基本上我們每年都會推出一兩款新產(chǎn)品。

去年下半年我們還開發(fā)了全身遙操作系統(tǒng),之前機器人的很多表演,包括武術(shù)動作,都是提前預(yù)訓(xùn)練的,先采集人的動作再進行AI訓(xùn)練,和舞蹈節(jié)目一樣是提前編排好的,動作不能隨時變化,而這套全身遙操作系統(tǒng)可以實現(xiàn)動作的實時變化,人在做什么動作,機器人就能同步做什么動作。

這個技術(shù)有兩個非常實用的功能:第一個是能實現(xiàn)人形機器人大規(guī)模的數(shù)據(jù)采集,現(xiàn)在的AI都是靠數(shù)據(jù)驅(qū)動的,數(shù)據(jù)的質(zhì)量和數(shù)量直接決定了AI的能力,而目前人形機器人的相關(guān)數(shù)據(jù)非常稀缺,通過這套系統(tǒng),我們可以部署大規(guī)模的數(shù)據(jù)采集。

如果今年年底之前能部署幾千臺甚至1萬臺人形機器人,每天采集十個小時的數(shù)據(jù),那未來一兩年甚至兩三年,人形機器人的數(shù)據(jù)稀缺問題就能得到徹底解決。

第二個實用功能是可以實現(xiàn)機器人的遠程操控,比如我在外地,就可以直接控制杭州的一臺機器人,這樣甚至都不用回公司上班,不過目前這個技術(shù)還面臨著通信延遲等一些挑戰(zhàn)。

工業(yè)落地

從試點到自產(chǎn)自造

可能大家覺得我們的機器人更多是出現(xiàn)在表演場景,但實際上過去幾年,我們的機器人已經(jīng)在工業(yè)領(lǐng)域做了很多部署和試點落地應(yīng)用。

比如我們的機器人已經(jīng)能在自己的工廠里裝配機器人的關(guān)節(jié)電機,我們始終相信,未來當(dāng)機器人真正實現(xiàn)普及應(yīng)用時,我們的工廠里會是機器人自己生產(chǎn)自己,這會帶來生產(chǎn)力的大幅提升。

過去幾年我們還和一些頭部的汽車公司展開了合作,不過這個領(lǐng)域目前在全球范圍內(nèi)還都處于試點階段,因為機器人的工作效率和成功率還面臨著不少挑戰(zhàn),目前的AI能力還需要進一步提升。

核心理念

運動能力是干活的前提

我們公司一直貫徹的邏輯就是運動和干活并行推動,因為我們相信運動能力是機器人真正能干活的先決必要條件。

未來人形機器人想要在家庭或者農(nóng)業(yè)場景真正普及應(yīng)用,連跳舞、打功夫都做不到是不可能的,這就和人類的運動員一樣,運動能力越強,干活的能力也會越強,當(dāng)人形機器人的運動能力足夠豐富,能做各種各樣的動作時,我們只需要把這些動作組合在一起,機器人就能完成各種工作任務(wù)。

行業(yè)進步

全球共創(chuàng)的成果

過去一兩年,在很多客戶的共同努力下,整個人形機器人行業(yè)的技術(shù)都取得了快速進步,去年全球范圍內(nèi)的人形機器人技術(shù)都有顯著提升。

我們公司能有這樣的進步,很大一部分原因是全世界有非常多的客戶,包括一些頂尖的科技公司、實驗室和高校,都在使用我們的機器人開發(fā)各種軟件,英偉達還開源了很多相關(guān)軟件,這些都推動了整個行業(yè)的技術(shù)進步,今年行業(yè)的技術(shù)還會繼續(xù)快速發(fā)展。

在未來,如果真正的AI具身智能達到一個臨界點,我們公司的機器人出貨量可能會一下子飆升到一年幾百萬臺,這是非常有可能的。

目前行業(yè)的發(fā)展靠的是全球大家共創(chuàng)的努力,并不是某一家公司的單獨貢獻,是全球從業(yè)者的共同努力,加速了整個人形機器人行業(yè)的技術(shù)迭代。

仍需2-3年時間

具身智能“GPT時刻”

最近幾年,不管是機器人領(lǐng)域還是中國的AI領(lǐng)域,都取得了非常明顯的技術(shù)進步。

我個人印象比較深的是今年1月份字節(jié)跳動發(fā)布的Seedance2.0視頻生成軟件,這款軟件的效果非常好,是目前全球最好的視頻生成軟件,沒有之一,在全球范圍內(nèi)遙遙領(lǐng)先。

我相信在未來幾年,具身智能的軟件也能實現(xiàn)這樣的技術(shù)突破,但目前來說還差一點火候,想要讓具身智能或者機器人迎來屬于自己的GPT時刻,還面臨著一些挑戰(zhàn),其中最大的挑戰(zhàn)就是目前AI模型的泛化能力不夠。

具身智能的真正GPT時刻目前還差一點火候,但我覺得也快了。

目前行業(yè)里有些人比較樂觀,預(yù)估18個月就能實現(xiàn),我可能稍微悲觀一點,覺得至少需要兩到3年的時間,但這個過程肯定也會非???。

我個人對具身智能的GPT時刻做了一個簡單的定義:未來如果有一天,一個機器人的AI模型,可以在80%左右的陌生場景中,通過語言和文字指令,實現(xiàn)80%的任務(wù),那就差不多達到了具身智能的GPT時刻。

比如說,我把一臺人形機器人帶到一個它完全沒有見過的場景,它也不認(rèn)識場景里的人,我跟它說"幫忙把這瓶水帶給某人"或者"幫忙找一支筆過來",它能完全自主地完成這些任務(wù),不需要提前建圖,也不需要提前預(yù)設(shè)程序,那我覺得就真正實現(xiàn)了具身智能的GPT時刻,整個行業(yè)也會迎來真正的爆發(fā)期。

技術(shù)路線

世界模型與VIA模型

目前整個人形機器人行業(yè)在全球范圍內(nèi)非?;馃?,最近幾年也取得了很大的技術(shù)進步,但同時也面臨著不少的挑戰(zhàn)。

目前全球范圍內(nèi)具身智能或者機器人領(lǐng)域的模型進步,主要有兩個流派:一個是VIA模型,就是在語言模型或者文字模型的基礎(chǔ)上,再把機器人模型加進去;還有一個是世界模型,大家可能也聽過,就是通過對世界的預(yù)估來建模,再推動機器人的動作實現(xiàn)。

我個人覺得世界模型,包括基于視頻生成的世界模型,都是非常有發(fā)展可能性的,這也是我們?nèi)ツ觊_源了基于視頻生成的世界模型的原因,我個人非??春没谝曨l生成的世界模型的發(fā)展。

如果讓AI生成模型生成一個機器人在家里干活的視頻,當(dāng)視頻的質(zhì)量足夠好時,只要把視頻里的動作投射到機器人上,機器人就能完成相應(yīng)的干活任務(wù),這個想法非常簡單直接,但目前還面臨著一些挑戰(zhàn),最大的挑戰(zhàn)就是視頻里的動作和機器人的實際動作沒辦法很好地對齊和統(tǒng)一,這也是目前全球行業(yè)都面臨的最大挑戰(zhàn)。

一旦視頻生成的動作和模型能與機器人實現(xiàn)統(tǒng)一,這個問題就能從根本上解決,機器人計算模型也就基本上可以誕生了。去年我們也開源了一個基于VIA模型的相關(guān)技術(shù),目前全球范圍內(nèi)做這個流派的人也更多一點。

核心挑戰(zhàn)

泛化能力不足

目前對于機器人來說,如果是提前訓(xùn)練過的一個或幾個場景,它的工作成功率基本上能達到100%,但如果換一個陌生場景,成功率就會大幅下跌,所以我們必須提升人形機器人或具身智能的泛化能力。

首先要提高模型的表達能力,如果模型本身的表達能力或者能實現(xiàn)的動作豐富度不夠,泛化能力自然也無從談起。

其次要提高對數(shù)據(jù)的利用率,語言模型或多模態(tài)模型有互聯(lián)網(wǎng)上的大量數(shù)據(jù)作為支撐,但機器人領(lǐng)域的相關(guān)數(shù)據(jù)非常稀缺,所以我們要在有限的數(shù)據(jù)情況下,盡可能提升數(shù)據(jù)的利用率,這對整個行業(yè)都非常有價值。

第三,強化學(xué)習(xí)的一些泛化效應(yīng)也需要進一步提升。

為了解決上述的這些問題,最關(guān)鍵的一點還是要全球合作。

現(xiàn)在的AI或者機器人的發(fā)展,都不是靠單家公司能實現(xiàn)的,尤其是AI領(lǐng)域,目前都是全球共創(chuàng)的結(jié)果。

過去幾年大家能看到,AI領(lǐng)域的發(fā)展就是這家公司今天做出一點貢獻,那家公司明天取得一些突破,所以最關(guān)鍵的還是通過全球合作,共同推動這個產(chǎn)業(yè)的進步。

試想一下,在當(dāng)下的AI和具身智能機器人時代,如果再早個5年或者晚個5年,其實都不會有這么好的發(fā)展機會。

    本文為澎湃號作者或機構(gòu)在澎湃新聞上傳并發(fā)布,僅代表該作者或機構(gòu)觀點,不代表澎湃新聞的觀點或立場,澎湃新聞僅提供信息發(fā)布平臺。申請澎湃號請用電腦訪問http://renzheng.thepaper.cn。

    +1
    收藏
    我要舉報
            查看更多

            掃碼下載澎湃新聞客戶端

            滬ICP備14003370號

            滬公網(wǎng)安備31010602000299號

            互聯(lián)網(wǎng)新聞信息服務(wù)許可證:31120170006

            增值電信業(yè)務(wù)經(jīng)營許可證:滬B2-2017116

            ? 2014-2026 上海東方報業(yè)有限公司