如何讓機器人從“讀萬卷書”到“行萬里路”？

澎湃新聞記者季敬杰

2026-03-18 08:05

來源：澎湃新聞

? 科創(chuàng)101 >

聽全文

如果說云端大模型通過學習海量文本與圖像數(shù)據(jù)，學會了“讀萬卷書”，那么具身智能的目標，就是讓AI擁有身體，學會在復雜的物理世界中“行萬里路”。這一步跨越，意味著人工智能正從虛擬的數(shù)字世界，邁向真實的物理空間。

3月14日，在上海東方樞紐國際商務合作區(qū)舉辦的“申城策源·智鏈終端”人工智能終端投融資峰會上，行業(yè)專家與投資者齊聚一堂，共同探討了端側(cè)AI領域的發(fā)展趨勢。與會者普遍認為，隨著AI從云端走向手機、PC、汽車乃至各類機器人，如何讓這些智能終端理解并操作系統(tǒng)所在的物理環(huán)境，已成為產(chǎn)業(yè)爆發(fā)的核心命題。

具身智能的數(shù)據(jù)困境

“我們曾經(jīng)講過讀萬卷書不如行萬里路?！毙驹煞輨?chuàng)始人戴偉民在峰會上說，“現(xiàn)在機器人的‘小腦’（運動控制）做得很好，運動很靈活，但是‘大腦’（環(huán)境理解與決策）不行。”

“大腦”的困境源于數(shù)據(jù)的缺失。與語言模型可以輕易獲取整個互聯(lián)網(wǎng)的文本數(shù)據(jù)不同，具身智能需要的是與物理世界交互產(chǎn)生的數(shù)據(jù)，從中訓練出真正可以理解真實世界的智能。

上海國投先導私募基金管理有限公司副總經(jīng)理吳緒成指出，當前整個具身智能產(chǎn)業(yè)的核心瓶頸是“數(shù)據(jù)供給嚴重不足”。與此同時，獲取數(shù)據(jù)的技術路線與訓練“大腦”的大模型技術路線都尚未收斂。究竟是采用直接學習“視覺-語言-行動”的VLA模型，還是構(gòu)建一個能預測物理世界變化的“世界模型”，業(yè)界仍在探索。

VLA（Vision-Language-Action）模型試圖直接學習從“看到什么（視覺）、聽到什么指令（語言）”到“該做什么（行動）”的映射關系，讓機器人的行動變得可以用文字解釋。另一種世界模型（World Model）的思路則致力于在模型內(nèi)部構(gòu)建一個關于物理世界的空間，真正做到理解物體、空間關系和物理規(guī)律，從而能夠讓機器像人一樣預測行動的后果。

然而，無論是哪一種算法，都需要用物理世界的數(shù)據(jù)去訓練。在酷哇科技CEO何弢看來，整個具身智能賽道正陷入一個“先有規(guī)模還是先有智能”的先發(fā)悖論：沒有足夠智能的機器人，就無法在真實場景中大規(guī)模應用；而沒有大規(guī)模應用，就無法收集到訓練出更強“大腦”所必需的海量、高質(zhì)量交互數(shù)據(jù)。如何打破這個循環(huán)，成為所有從業(yè)者必須回答的問題。

“路測法”與“落地法”之爭

“物理世界當中的交互數(shù)據(jù)怎么樣能夠有效地捕獲，如何有效低成本地獲取？這是在端側(cè)模型發(fā)展目前面臨的首要問題。”何弢在峰會的主題分享中提到，并借鑒自動駕駛領域的發(fā)展歷程，提出了解決方案。

他將兩種數(shù)據(jù)獲取策略類比為谷歌Waymo的“路測法”和特斯拉的“落地法”?！奥窚y法”即直接部署專門的測試車隊，一步到位地在真實道路上采集高質(zhì)量數(shù)據(jù)，其優(yōu)勢在于目標純粹、數(shù)據(jù)高保真，但缺點在于規(guī)模擴張極度依賴高昂的資本開支，屬于典型的“燒錢模式”。

而“落地法”則另辟蹊徑?！疤厮估擅畹乩昧寺涞胤ǎ焙螐|分析道，“先打磨出一個具備生產(chǎn)力價值的產(chǎn)品，比如一輛人類可以舒適駕駛的車。在交付產(chǎn)品、獲得收入的同時，獲取大量寶貴的數(shù)據(jù)?！边@種模式雖然前期獲取數(shù)據(jù)的速度稍慢，但一旦產(chǎn)品形成規(guī)模，就能在不依賴資本持續(xù)輸血的情況下，形成一個“技術發(fā)展-商業(yè)落地-數(shù)據(jù)反饋”的良性飛輪。

遵循這一邏輯，何弢介紹道，酷哇科技致力于成為“世界模型驅(qū)動的城市具身智能全棧方案商”。通過打造智慧城市管家機器人、智慧出行小巴、智慧物業(yè)服務機器人等一系列能即刻產(chǎn)生商業(yè)價值的機器人產(chǎn)品，將其大規(guī)模部署到城市的大街小巷。

“我們通過打磨產(chǎn)品，在城市場景當中去把這個產(chǎn)品布出去了以后，一邊作業(yè)一邊獲回饋數(shù)據(jù)?！焙螐|說。目前，酷哇的城市管家機器人已經(jīng)占據(jù)市場上超過90%的份額，出貨量超過1萬臺。這些機器人構(gòu)成了一個龐大的、持續(xù)運轉(zhuǎn)的數(shù)據(jù)采集網(wǎng)絡，已經(jīng)收集了超過50PB的物理真值數(shù)據(jù)。

具身智能的終極圖景：從城市邁向家庭

何弢表示，酷哇科技正在利用這些數(shù)據(jù)訓練更加“聰明”的端側(cè)機器人“大腦”。這個系統(tǒng)中不僅包含一個“世界模型”，讓機器人具備理解基本物理規(guī)律的直覺，也有部署在端側(cè)和云端的推理模型，讓它們能夠進行邏輯推理這樣的“慢思考”。

在他看來，這種數(shù)據(jù)與算法相互驅(qū)動的模式一旦成型，將帶來顯著的“馬太效應”。擁有最多落地場景和數(shù)據(jù)的企業(yè)，將能訓練出最強大的“世界模型”大腦；而最強大的大腦又能驅(qū)動機器人提供更好的服務，從而收割更多的市場份額與數(shù)據(jù)資產(chǎn)。

“頭部玩家的雪球越滾越大，底層推力正是數(shù)據(jù)與技術的飛輪效應。機器人大腦的技術演進越快，商業(yè)護城河就越深?！焙螐|說，即便現(xiàn)在已經(jīng)出現(xiàn)使用AI合成的仿真數(shù)據(jù)來訓練模型的方式，真實世界數(shù)據(jù)的價值也難以取代。

基于這些原因，何弢認為，比起現(xiàn)在還沒有明確使用場景的人形機器人，具備精準場景定位、能迅速規(guī)?；涞氐妮喪交蜉喿銠C器人，例如自動駕駛汽車、商業(yè)清潔機器人、物流機器人等，反而可能是具身智能行業(yè)更好的起點，也能夠收集到更多的真實數(shù)據(jù)。

他告訴澎湃科技，具身智能發(fā)展的第二個階段可能是在更大范圍但仍受限的場景中，實現(xiàn)多智能體的協(xié)同作業(yè)。例如在一個社區(qū)或工業(yè)園區(qū)內(nèi)，由一個統(tǒng)一的“世界模型”驅(qū)動無人小巴、配送機器人、清潔機器人協(xié)同服務，由一個“大腦”控制多個“身體”。“我認為是在三年內(nèi)就可以看到。”他說。

何弢認為，機器人發(fā)展的最后一個階段是真正進入家庭，成為“給大家當保姆、做服務員”的通用機器人。他表示，家庭場景的復雜性和不確定性遠超前兩者，“居家機器人的能力，應該是結(jié)合上前面所有能力的集大成者。”

責任編輯：宦艷紅

圖片編輯：沈軻

澎湃新聞報料：021-962866

澎湃新聞，未經(jīng)授權不得轉(zhuǎn)載

我要舉報

#機器人 #世界模型 #數(shù)據(jù)#人形機器人 #具身智能 #端側(cè)AI