- +1
如何讓機器人從“讀萬卷書”到“行萬里路”?
如果說云端大模型通過學習海量文本與圖像數(shù)據(jù),學會了“讀萬卷書”,那么具身智能的目標,就是讓AI擁有身體,學會在復(fù)雜的物理世界中“行萬里路”。這一步跨越,意味著人工智能正從虛擬的數(shù)字世界,邁向真實的物理空間。
3月14日,在上海東方樞紐國際商務(wù)合作區(qū)舉辦的“申城策源·智鏈終端”人工智能終端投融資峰會上,行業(yè)專家與投資者齊聚一堂,共同探討了端側(cè)AI領(lǐng)域的發(fā)展趨勢。與會者普遍認為,隨著AI從云端走向手機、PC、汽車乃至各類機器人,如何讓這些智能終端理解并操作系統(tǒng)所在的物理環(huán)境,已成為產(chǎn)業(yè)爆發(fā)的核心命題。
具身智能的數(shù)據(jù)困境
“我們曾經(jīng)講過讀萬卷書不如行萬里路?!毙驹煞輨?chuàng)始人戴偉民在峰會上說,“現(xiàn)在機器人的‘小腦’(運動控制)做得很好,運動很靈活,但是‘大腦’(環(huán)境理解與決策)不行?!?/p>
“大腦”的困境源于數(shù)據(jù)的缺失。與語言模型可以輕易獲取整個互聯(lián)網(wǎng)的文本數(shù)據(jù)不同,具身智能需要的是與物理世界交互產(chǎn)生的數(shù)據(jù),從中訓練出真正可以理解真實世界的智能。
上海國投先導私募基金管理有限公司副總經(jīng)理吳緒成指出,當前整個具身智能產(chǎn)業(yè)的核心瓶頸是“數(shù)據(jù)供給嚴重不足”。與此同時,獲取數(shù)據(jù)的技術(shù)路線與訓練“大腦”的大模型技術(shù)路線都尚未收斂。究竟是采用直接學習“視覺-語言-行動”的VLA模型,還是構(gòu)建一個能預(yù)測物理世界變化的“世界模型”,業(yè)界仍在探索。
VLA(Vision-Language-Action)模型試圖直接學習從“看到什么(視覺)、聽到什么指令(語言)”到“該做什么(行動)”的映射關(guān)系,讓機器人的行動變得可以用文字解釋。另一種世界模型(World Model)的思路則致力于在模型內(nèi)部構(gòu)建一個關(guān)于物理世界的空間,真正做到理解物體、空間關(guān)系和物理規(guī)律,從而能夠讓機器像人一樣預(yù)測行動的后果。
然而,無論是哪一種算法,都需要用物理世界的數(shù)據(jù)去訓練。在酷哇科技CEO何弢看來,整個具身智能賽道正陷入一個“先有規(guī)模還是先有智能”的先發(fā)悖論:沒有足夠智能的機器人,就無法在真實場景中大規(guī)模應(yīng)用;而沒有大規(guī)模應(yīng)用,就無法收集到訓練出更強“大腦”所必需的海量、高質(zhì)量交互數(shù)據(jù)。如何打破這個循環(huán),成為所有從業(yè)者必須回答的問題。
“路測法”與“落地法”之爭
“物理世界當中的交互數(shù)據(jù)怎么樣能夠有效地捕獲,如何有效低成本地獲???這是在端側(cè)模型發(fā)展目前面臨的首要問題?!焙螐|在峰會的主題分享中提到,并借鑒自動駕駛領(lǐng)域的發(fā)展歷程,提出了解決方案。
他將兩種數(shù)據(jù)獲取策略類比為谷歌Waymo的“路測法”和特斯拉的“落地法”?!奥窚y法”即直接部署專門的測試車隊,一步到位地在真實道路上采集高質(zhì)量數(shù)據(jù), 其優(yōu)勢在于目標純粹、數(shù)據(jù)高保真,但缺點在于規(guī)模擴張極度依賴高昂的資本開支,屬于典型的“燒錢模式”。
而“落地法”則另辟蹊徑?!疤厮估擅畹乩昧寺涞胤?,”何弢分析道,“先打磨出一個具備生產(chǎn)力價值的產(chǎn)品,比如一輛人類可以舒適駕駛的車。在交付產(chǎn)品、獲得收入的同時,獲取大量寶貴的數(shù)據(jù)?!边@種模式雖然前期獲取數(shù)據(jù)的速度稍慢,但一旦產(chǎn)品形成規(guī)模,就能在不依賴資本持續(xù)輸血的情況下,形成一個“技術(shù)發(fā)展-商業(yè)落地-數(shù)據(jù)反饋”的良性飛輪。
遵循這一邏輯,何弢介紹道,酷哇科技致力于成為“世界模型驅(qū)動的城市具身智能全棧方案商”。通過打造智慧城市管家機器人、智慧出行小巴、智慧物業(yè)服務(wù)機器人等一系列能即刻產(chǎn)生商業(yè)價值的機器人產(chǎn)品,將其大規(guī)模部署到城市的大街小巷。
“我們通過打磨產(chǎn)品,在城市場景當中去把這個產(chǎn)品布出去了以后,一邊作業(yè)一邊獲回饋數(shù)據(jù)。”何弢說。目前,酷哇的城市管家機器人已經(jīng)占據(jù)市場上超過90%的份額,出貨量超過1萬臺。這些機器人構(gòu)成了一個龐大的、持續(xù)運轉(zhuǎn)的數(shù)據(jù)采集網(wǎng)絡(luò),已經(jīng)收集了超過50PB的物理真值數(shù)據(jù)。
具身智能的終極圖景:從城市邁向家庭
何弢表示,酷哇科技正在利用這些數(shù)據(jù)訓練更加“聰明”的端側(cè)機器人“大腦”。這個系統(tǒng)中不僅包含一個“世界模型”,讓機器人具備理解基本物理規(guī)律的直覺,也有部署在端側(cè)和云端的推理模型,讓它們能夠進行邏輯推理這樣的“慢思考”。
在他看來,這種數(shù)據(jù)與算法相互驅(qū)動的模式一旦成型,將帶來顯著的“馬太效應(yīng)”。擁有最多落地場景和數(shù)據(jù)的企業(yè),將能訓練出最強大的“世界模型”大腦;而最強大的大腦又能驅(qū)動機器人提供更好的服務(wù),從而收割更多的市場份額與數(shù)據(jù)資產(chǎn)。
“頭部玩家的雪球越滾越大,底層推力正是數(shù)據(jù)與技術(shù)的飛輪效應(yīng)。機器人大腦的技術(shù)演進越快,商業(yè)護城河就越深?!焙螐|說,即便現(xiàn)在已經(jīng)出現(xiàn)使用AI合成的仿真數(shù)據(jù)來訓練模型的方式,真實世界數(shù)據(jù)的價值也難以取代。
基于這些原因,何弢認為,比起現(xiàn)在還沒有明確使用場景的人形機器人,具備精準場景定位、能迅速規(guī)?;涞氐妮喪交蜉喿銠C器人,例如自動駕駛汽車、商業(yè)清潔機器人、物流機器人等,反而可能是具身智能行業(yè)更好的起點,也能夠收集到更多的真實數(shù)據(jù)。
他告訴澎湃科技,具身智能發(fā)展的第二個階段可能是在更大范圍但仍受限的場景中,實現(xiàn)多智能體的協(xié)同作業(yè)。例如在一個社區(qū)或工業(yè)園區(qū)內(nèi),由一個統(tǒng)一的“世界模型”驅(qū)動無人小巴、配送機器人、清潔機器人協(xié)同服務(wù),由一個“大腦”控制多個“身體”?!拔艺J為是在三年內(nèi)就可以看到?!彼f。
何弢認為,機器人發(fā)展的最后一個階段是真正進入家庭,成為“給大家當保姆、做服務(wù)員”的通用機器人。他表示,家庭場景的復(fù)雜性和不確定性遠超前兩者,“居家機器人的能力,應(yīng)該是結(jié)合上前面所有能力的集大成者?!?/p>





- 報料熱線: 021-962866
- 報料郵箱: news@thepaper.cn
互聯(lián)網(wǎng)新聞信息服務(wù)許可證:31120170006
增值電信業(yè)務(wù)經(jīng)營許可證:滬B2-2017116
? 2014-2026 上海東方報業(yè)有限公司




