下載客戶端

登錄

競速與暗戰(zhàn)，智能輔助駕駛邁入Next Level

2025-08-20 16:35

來源：澎湃新聞·澎湃號·湃客

理想主義者是值得尊敬的，但很少成功。在當下的輔助駕駛領域，尤為如此。

2025年智能輔助駕駛戰(zhàn)場，彌漫著“短平快”的焦慮。部分車企依賴人工采集“老司機數(shù)據(jù)”，甚至雇傭數(shù)百人實車路測，成本高昂卻效率低下。同時，“端到端+VLM”架構遭遇瓶頸——訓練數(shù)據(jù)突破1000萬Clips后，性能增長緩慢。實車測試無法復現(xiàn)極端場景，接管里程的數(shù)字繁榮背后隱藏著極端場景的未解難題。

面對這些現(xiàn)象，現(xiàn)有端到端模型已給不出更多答案，端到端模型像猴子開車，能夠?qū)W習人類行為，但并不理解物理世界。傳統(tǒng)用規(guī)則算法“修補”端到端缺陷的方式已然失效，而現(xiàn)在，理想、小鵬等造車新勢力正在推翻現(xiàn)有架構，以全新的VLA大模型重燃新一輪智駕戰(zhàn)火。

新勢力押注VLA

在最近理想和小鵬首發(fā)的i8和G7 Ultra中，VLA成為關鍵技術。

理想i8核心亮點就是VLA“司機大模型”，這是理想汽車智駕領域繼去年推出“端到端+VLM”之后的又一新進展。理想VLA的所有模塊經(jīng)過全新設計，空間編碼器通過語言模型并結合邏輯推理，給出合理的駕駛決策，并通過Diffusion（擴散模型）預測其他車輛和行人的軌跡，進一步優(yōu)化出最佳的駕駛軌跡。

8月15日，小鵬汽車宣布，小鵬G7 Ultra的VLA能力再度提前，現(xiàn)已明確8月內(nèi)可以開啟首批推送?！案咚偃藱C共駕”等功能，不僅即將登陸Ultra車型，也會通過OTA推送至Max車型。

據(jù)稱，小鵬G7 Ultra車型將搭載本地端VLA模型，具備VLA思考推理可視化、語音控車、主動推薦等功能。這一版本使用了3顆小鵬汽車自研的圖靈AI芯片，綜合算力高達2250TOPS。

“端到端+VLM”被視為區(qū)分智能輔助駕駛技術的分水嶺。在此之前，NPN（先驗網(wǎng)絡）輕圖、無圖均是人工時代的技術，而人工時代的最大特點是“規(guī)則算法”，需要工程師設計算法并編寫程序，因此提升輔助駕駛性能依賴于工程師的能力和經(jīng)驗。

然而，從“端到端+VLM”開始，車企不再用傳統(tǒng)的方式做，“端到端+VLM”架構的本質(zhì)是模仿學習，是用人類駕駛數(shù)據(jù)訓練模型，數(shù)據(jù)數(shù)量和質(zhì)量決定性能。

這場智能輔助駕駛的比拼特別像體育界的鐵人三項，要想贏得競賽，需要三個核心要素：技術、工程和產(chǎn)品。智能輔助駕駛要實現(xiàn)好用、愛用，需要關注兩個維度。一個是Scale up（性能提升），即把系統(tǒng)打磨到可以處理各種極端環(huán)境和復雜交通流；另一個是Scale out（場景泛化），即系統(tǒng)在全場景下在不同的時間、天氣、環(huán)境和不同的城市都可以有很好的表現(xiàn)。

從技術路徑看，無論端到端也好，還是VLM也罷，最后來看都將殊途同歸，就是建立VLA流程，整體系統(tǒng)會更加接近于人的應激反應，（感知）看到什么，（規(guī)控）就能做出相應的駕駛動作。不少智駕行業(yè)人士都將VLA視為當下“端到端”方案的2.0版本，認為這是未來確定的技術路線，只是實現(xiàn)的時間快慢問題。

在智能輔助駕駛的發(fā)展過程中，VLA和一段式端到端是兩個較為主流的技術路徑。

VLA作為一種融合了視覺（Vision）、語言（Language）和操作決策（Action）的多模態(tài)大模型，是介于傳統(tǒng)模塊化和端到端之間的技術架構。它不直接控制車輛，而是先把路況轉(zhuǎn)化為“語義信息”，比如把感知硬件看到的車道、障礙物、紅綠燈等信息做成語義標注，包括文本描述和視覺關聯(lián)，動作生成器綜合視覺和語義信息輸出決策。

從理論上分析，作為多模態(tài)大模型，VLA具有強大的場景推理和語言理解能力，可適應復雜、邊緣情況或動態(tài)交通環(huán)境。此外，由于融入了“世界知識”和“常識推理”，VLA理論上具備更高上限的智能行為。

比如，VLA可以理解城市中的“潮汐車道”“公交車道”等指示牌的文字信息，甚至可以理解駕駛者的語音指令并做出相應的動作。

VLA架構下，端到端與多模態(tài)大模型的結合將會更徹底。但更具挑戰(zhàn)的是，當端到端與VLM模型合二為一后，車端模型參數(shù)將變得更大，這既要有高效實時推理能力，同時還要有大模型認識復雜世界并給出建議的能力，對車端芯片硬件有相當高要求。

如何將端到端與多模態(tài)大模型的數(shù)據(jù)與信息進行深度交融，實現(xiàn)軟硬件的無縫融合與協(xié)同配合，將考驗著每一個智能輔助駕駛團隊的模型框架定義能力、模型的工程開發(fā)能力以及模型快速迭代能力。

在過去一年，幾乎所有主流的車企在輔助駕駛上都更新成了端到端大模型驅(qū)動的系統(tǒng)，在短時間內(nèi)性能和體驗提升都比較明顯。但端到端黑盒的研發(fā)模式，導致了部分Corner Case無法追溯產(chǎn)生的原因，這也導致一部分車企很快地從“熱戀期”進入到了“瓶頸期”。

即使是當前TOP級別的端到端系統(tǒng)，在面臨復雜道路結構疊加復雜車流博弈時大多數(shù)情況也會崩潰。行業(yè)普遍面臨瓶頸，所以很自然地有公司開始探尋上限更高的新架構。

而VLA通過語言模型的引入，很好地解決了研發(fā)和用戶兩端黑盒的問題。

不過，這并不意味著端到端不值得投入開發(fā)。如果規(guī)則算法都做不好，那么根本不知道怎么去做端到端；如果端到端沒有做到一個非常極致的水平，那連VLA怎么去訓練都不知道。換句話說，在端到端上取得大規(guī)模成功量產(chǎn)經(jīng)驗，是探索VLA的一個門檻。

為什么是VLA？

過去幾年，輔助駕駛經(jīng)歷了三種架構的迭代：規(guī)則算法、端到端、VLA，這是一個從指令控制，到模仿行為，再到理解意圖的過程。每一代技術都在不停地提升算力、平均接管里程，本質(zhì)上是要不斷接近人類的駕駛方式。

輔助駕駛的人工時代到現(xiàn)在AI時代的分水嶺，是從無圖到端到端。在原來輕圖、NPN 或者無圖的人工時代，輔助駕駛的核心是規(guī)則算法。

最早的輔助駕駛采用模塊化架構，由于感知、規(guī)劃及執(zhí)行系統(tǒng)相對獨立，且每個步驟都要占用一定的計算時間，整體系統(tǒng)的響應較慢，延時較高。

簡單來說，就是需要在既定的規(guī)則下，同時依賴高精地圖，類似螞蟻的行動和完成任務的方式。但無法完成更復雜的事情，需要不斷地加限定規(guī)則。

人工時代的局限性在于，單靠人力難以解決所有場景，很多場景是“按下葫蘆起來瓢”，于是輔助駕駛進入了端到端時代。

端到端階段通過大模型學習人類駕駛行為，足以應對大部分泛化場景，但端到端很難解決從未遇到過或特別復雜的問題，此時需要配合VLM。VLM對復雜交通環(huán)境具有更強的理解能力，但現(xiàn)有VLM在應對復雜交通環(huán)境時只能起到輔助作用。

“端到端+VLM”的核心是模仿學習，用人類駕駛的數(shù)據(jù)來訓練模型。這個技術階段，決定性的因素就是數(shù)據(jù)。數(shù)據(jù)多，覆蓋的場景全，數(shù)據(jù)質(zhì)量好——最好是來自老司機，這時訓練模型的性能就會非常好。

但模仿學習終究有上限。相比過去只依賴真實駕駛數(shù)據(jù)，VLA采用生成數(shù)據(jù)和仿真環(huán)境結合的方式，讓模型能在無風險、可控的虛擬世界中自主進化。這套思路如今也正在被更多車企采納，VLA正成為智能駕駛的新共識。

由于人類駕駛數(shù)據(jù)存在嚴重的分布不均，大多集中在白天、晴天、正常通勤等常規(guī)場景，真正復雜或危險的工況數(shù)據(jù)稀缺且難以采集。而訓練具備真實決策能力的模型，恰恰需要這些邊緣與極端場景。

這就要求引入合成數(shù)據(jù)和高質(zhì)量仿真環(huán)境，用生成式方法構建覆蓋更全、分布更廣的數(shù)據(jù)集，同時不斷評測模型表現(xiàn)。最終決定模型性能提升速度的關鍵，不是收集了多少真實數(shù)據(jù)，而是仿真迭代的效率。相比傳統(tǒng)的數(shù)據(jù)驅(qū)動方式，這是一種更具主動性的訓練方式。

事實上，VLA并不是一套跳級的打法，而是端到端之后的自然發(fā)展。如果沒有經(jīng)歷過端到端階段對模型感知、決策、控制等環(huán)節(jié)的完整訓練，就無法一步跨入VLA。

在VLA階段，利用3D視覺和2D的組合構建更真實的物理世界，此階段系統(tǒng)可實現(xiàn)看懂導航軟件的運行邏輯，而非VLM階段僅能看到一張圖。

同時，VLA不僅能看到物理世界，更能理解物理世界，具有自己的語言和思維鏈系統(tǒng)，有推理能力，可以像人類一樣去執(zhí)行一些復雜動作，能夠更好的處理人類駕駛行為的多模態(tài)性，可以適應更多駕駛風格。

在海量的優(yōu)質(zhì)數(shù)據(jù)的加持下，VLA模型在絕大多數(shù)場景下能接近人類的駕駛水平；隨著偏好數(shù)據(jù)的逐步豐富，模型的表現(xiàn)也逐步接近專業(yè)司機的水平，安全下限也得到了巨大的提升。

VLA雖然給自動駕駛行業(yè)提出了新的可能，但實際應用依舊面臨很多挑戰(zhàn)。

首先是模型可解釋性不足，作為“黑盒子”系統(tǒng)，很難逐步排查在邊緣場景下的決策失誤，給安全驗證帶來難度。

其次，端到端訓練對數(shù)據(jù)質(zhì)量和數(shù)量要求極高，還需構建覆蓋多種交通場景的高保真仿真環(huán)境。另外，計算資源消耗大、實時性優(yōu)化難度高，也是VLA商用化必須克服的技術壁壘。

為了解決上述問題，車企也正在探索多種技術路徑。如有通過引入可解釋性模塊或后驗可視化工具，對決策過程進行透明化；還有利用Diffusion模型對軌跡生成進行優(yōu)化，確?？刂浦噶畹钠交耘c穩(wěn)定性。同時，將VLA與傳統(tǒng)規(guī)則引擎或模型預測控制（MPC）結合，以混合架構提高安全冗余和系統(tǒng)魯棒性也成為熱門方向。

智能輔助駕駛接近決戰(zhàn)時刻

理想、小鵬并不是智能輔助駕駛領域的先行者，當技術方向清晰后，它們迅速通過投入大算力和海量的數(shù)據(jù)，快速驗證路徑，追上了對手。這種路徑適用于車輛保有量大、且駕駛數(shù)據(jù)可有效回傳的車企。但隨著時間的推進，落后者的機會窗口逐漸縮窄。

從端到端到“端到端+VLM”再到VLA，其中需要面臨很多現(xiàn)實難題，比如多模態(tài)對齊工程龐大，成熟度亟待提升，多模態(tài)數(shù)據(jù)的獲取和訓練也十分困難，對于算力需求更是水漲船高。

目前，行業(yè)應用的主流英偉達Orin芯片單顆算力254TOPS，且不支持直接運行語言模型。而英偉達Thor芯片由于存在設計缺陷和工程問題，實際算力與宣傳數(shù)據(jù)相比大幅縮水，其中Thor S、Thor U版本的算力約為700TOPS，而Thor Z基礎版算力約為300TOPS，對于端到端+VLM的算力需求而言，都依然緊張。

算力不足會導致大模型在推理過程中可能出現(xiàn)時延超過200毫秒的問題，而自動駕駛系統(tǒng)對于緊急制動等操作的響應時間要求是控制在100毫秒以內(nèi)。

正因如此，目前行業(yè)內(nèi)的芯片算力大戰(zhàn)正在逐漸升溫。除了英偉達，高通推出的8797艙駕一體芯片最高支持350TOPS算力，也已成為車企的選擇之一。

而車企，尤其是新勢力企業(yè)自研AI芯片已經(jīng)逐漸成為潮流，其中，理想汽車自研的馬赫（原名“舒馬赫”）100大算力AI芯片，盡管尚未透露參數(shù)，但今年5月已經(jīng)流片成功，計劃2026年量產(chǎn)。

特斯拉下一代全自動駕駛（FSD）芯片AI 5已進入量產(chǎn)階段，單顆算力或達到2500TOPS，較AI 4提升4~5倍，據(jù)稱最快在今年年底啟用。

此外，多模態(tài)對齊使得VLA需要依賴海量的標注數(shù)據(jù)來實現(xiàn)，然而在實際應用場景中，雨天反光、夜間弱光等并不常見的極端場景相關數(shù)據(jù)積累不足，將影響VLA的決策準確率及可靠性。所以，VLA要實現(xiàn)大規(guī)模落地，至少需要3~5年時間甚至更久。

VLA的大規(guī)模落地，本質(zhì)是算法、算力、數(shù)據(jù)技術革命的交匯。短期（2025~2026年）具備VLA功能的車型將在高速公路、封閉園區(qū)等特定場景運行，典型應用包括自動泊車、高速領航等。

中期（2027~2029年），隨著算力達2000TOPS及以上新一代AI芯片量產(chǎn)，VLA將覆蓋城市道路全場景，平均無接管里程將顯著提升，或突破100公里，接管率或降至0.01次/公里以下。

長期（2030年后），將出現(xiàn)如光計算架構等專用AI芯片，并與腦機接口技術融合，或?qū)⑹筕LA實現(xiàn)類人駕駛的直覺決策能力，如準確預判行人突發(fā)行為的概率等。

多模態(tài)對齊成熟度、訓練效率提升、芯片能效比革命等一些關鍵因素，都可能在未來3~5年迎來新的突破，為VLA大規(guī)模落地提供更好支持。

然而，技術路線的驟然升級與競賽變奏，為還沒發(fā)力端到端的玩家設置了更高門檻，后發(fā)制人的機會更加稀少，距離智能輔助駕駛的決戰(zhàn)時刻已經(jīng)越來越近。

特別聲明

本文為澎湃號作者或機構在澎湃新聞上傳并發(fā)布，僅代表該作者或機構觀點，不代表澎湃新聞的觀點或立場，澎湃新聞僅提供信息發(fā)布平臺。申請澎湃號請用電腦訪問http://renzheng.thepaper.cn。

我要舉報