北京2025年10月28日 /美通社/ -- 近日,在ICCV 2025自動駕駛國際挑戰賽(Autonomous Grand Challenge 2025)中,浪潮信息AI團隊憑借其提出的創新框架"SimpleVSF",以53.06的EPDMS綜合得分,在端到端自動駕駛賽道中奪得冠軍。該項目創新構建以鳥瞰視圖感知軌跡預測為核心、視覺-語言多模態大模型輔助判斷的融合方案,發揮大模型泛化能力,突破現有端到端自動駕駛模型在復雜交通場景"難以自主判斷"的局限,實現性能領先,為高動態、高交互交通環境下的智能決策提供了全新思路。
ICCV2025自動駕駛挑戰賽是自動駕駛與具身智能領域極具影響力的國際賽事。本屆比賽共設三大賽道,此次浪潮信息AI團隊所登頂的端到端自動駕駛賽道(NAVSIM v2 End-to-End Driving Challenge)是ICCV2025最受關注的賽道之一。比賽以NAVSIM v2數據驅動仿真框架作為評估平臺,主要考驗純視覺環視相機輸入的軌跡預測與行為規劃能力,要求在保證行車安全性的前提下,優化車輛的前進效率、避障能力、可行駛區域、駕駛舒適度等九項關鍵指標,避免模型只在某一單項上表現突出的缺陷。該賽道吸引了來自中國、韓國、瑞典的多家頭部智駕企業及知名高校與研究機構。
端到端自動駕駛:挑戰基于語義理解的類人決策
當前,端到端自動駕駛(End-to-End Autonomous Driving)通過端到端優化有效減少了傳統模塊化方法中各組件間的誤差累積與信息損失,被廣泛認為是實現智能駕駛的重要發展方向。然而,端到端自動駕駛系統在復雜現實路況中的決策能力仍不理想,主要問題在于:現有方法雖能準確識別車輛、車道等實體元素,卻難以理解如禮讓行人、擁堵跟車等高層次語義與場景常識。因此,在復雜長尾場景下,系統往往僅能依據數據關聯做出反應,而無法真正解讀交通參與者意圖或交互邏輯,從而出現次優決策,限制了其在真實開放道路中的可靠性與泛化能力。
在此基礎上,如何將深層語義認知能力融入軌跡規劃流程,成為了更深層次的技術挑戰。首先,將視覺語言模型輸出的抽象認知指令,轉化為驅動控制系統所需的具象數值化特征,本身就是一個復雜的表示學習問題。其次,在軌跡選擇階段,如何平衡數據驅動的量化評分與知識驅動的語義判斷,確保所選軌跡不僅在數學上最優,也在語義和場景常識上合理安全,成為感知與決策間的關鍵障礙。
本屆賽題旨在提升端到端自動駕駛模型在復雜動態環境中高效可靠決策的能力。競賽分為兩階段:第一階段采用真實場景數據,第二階段則基于真實場景通過Gaussian Splatting技術生成合成場景,以測試模型對"非真實但物理合理"場景的泛化能力;同時引入"反應式背景交通參與者",即周圍車輛和行人不再是預先設定、機械運動的,而是會根據自車的實時行為做出動態、仿真的反應,這要求模型具備更深層次的交互式預測與意圖理解能力,而非簡單的軌跡外推。
EPDMS 53.06分,SimpleVSF框架讓自動駕駛模型"懂場景、會思考"
在端到端自動駕駛賽道中,浪潮信息AI團隊所提出的SimpleVSF(Simple VLM-Scoring Fusion)框架,有效彌合了傳統軌跡規劃與視覺語言模型語義理解之間的關鍵鴻溝,推動自動駕駛決策從"純幾何式"向"認知式"轉變。該框架通過引入VLM(Vision-Language Model)與雙重融合決策機制,賦予系統深層的場景理解與推理能力,從根本上解決了現有方案在復雜交通語義認知上的不足,成為應對NAVSIM v2等高難度挑戰、實現高魯棒性駕駛的關鍵。其主要技術創新包括:
通過將前視圖像與車輛狀態輸入VLM模型,生成"加速、右轉"等認知指令,再經編碼器轉換為數值特征,與感知特征融合后輸入評分網絡。該機制使軌跡評估不再局限于幾何信息,更融入了對交通意圖與場景語義的理解,從而顯著提升了系統在復雜與長尾場景下的決策質量與魯棒性。實驗表明,此VLM增強打分機制為單一模型帶來2%的性能提升,在融合決策中提升幅度達到6%。
權重融合器作為定量聚合的核心,采用固定權重與動態權重相結合的策略,對多個評分器給出的分數進行精準的加權融合,確保最終軌跡在各項量化指標上達到最優。
基于VLM的選擇融合器則將各評分器選出的最優軌跡進行視覺渲染,并交由VLM進行最終評判,利用其高層次語義理解能力,選擇出最符合上下文場景、最安全合理的軌跡路徑。
融合機制的引入使決策效果顯著提升,融合后的結果相比單一模型性能提升達10%。
該框架采用擴散模型生成高質量的多樣化候選軌跡,奠定規劃基礎;運用ViT-L等先進視覺骨干網絡進行高效、魯棒的環境特征提取,為下游任務提供可靠表征;并引入Qwen2.5VL系列視覺語言模型,利用其在場景理解與指令生成方面的語義優勢,確保系統整體性能基礎的堅實與領先。
基于VLM自動駕駛決策系統的算法創新,"SimpleVSF"算法框架成功登頂端到端自動駕駛賽道(NAVSIM v2 End-to-End Driving Challenge)榜單,以53.06的EPDMS綜合得分創造了本賽道的最高成績,為探索更高級別的端到端自動駕駛技術提供了有力的支撐與經驗。
浪潮信息AI團隊此次奪冠,是繼22、23年登頂nuScenes 3D目標檢測純視覺及多模態榜單,24年在CVPR自動駕駛國際挑戰賽"Occupancy & Flow"賽道奪冠后的又一重要成果。未來,浪潮信息AI團隊將踐行多角度切入,發揮算法、算力融合的AI全棧優化能力,推動自動駕駛領域的技術創新發展。
* 備注:文內所涉術語解釋如下
擴展預測性駕駛模型評分(The Extended Predictive Driver Model Score,EPDMS):該指標綜合考量軌跡預測與真實軌跡的貼合度、碰撞風險、可行駛區域規范性、車道居中性、通行效率及舒適性等多個維度,全面反映自動駕駛系統的綜合表現;
高斯潑濺(Gaussian Splatting):一種新興的三維場景表示與渲染技術;
鳥瞰視圖(Bird's Eye View,BEV):是指將特征信息轉化至鳥瞰視角;
自車(ego-car):在自動駕駛領域指代當前車輛自身,通常作為運動主體參與軌跡規劃、環境感知等任務;
魯棒(Robust):是指系統在一定的參數攝動下,維持其它某些性能的特性。