EMMA是什么

EMMA是Waymo基于Gemini模型推出的端到端自動駕駛多模態(tài)模型,能將原始相機傳感器數(shù)據(jù)直接映射到駕駛特定輸出,如規(guī)劃軌跡、感知對象和道路圖元素。EMMA將非傳感器輸入和輸出表示為自然語言文本,用預(yù)訓(xùn)練大型語言模型的世界知識,在統(tǒng)一的語言空間中聯(lián)合處理多種駕駛?cè)蝿?wù)。EMMA在nuScenes運動規(guī)劃和Waymo開放數(shù)據(jù)集上展現(xiàn)了先進性能,但存在局限性,如處理圖像幀數(shù)量有限、缺少精確3D傳感方式集成和高計算成本。模型能推動自動駕駛模型架構(gòu)的發(fā)展,提高自動駕駛系統(tǒng)在復(fù)雜場景中的泛化和推理能力。

EMMA  Waymo推出的端到端自動駕駛多模態(tài)模型 第1張EMMA的主要功能端到端運動規(guī)劃:直接從原始相機傳感器數(shù)據(jù)生成自動駕駛車輛的未來軌跡。將軌跡轉(zhuǎn)化為車輛特定的控制動作,如加速和轉(zhuǎn)向。3D對象檢測:用攝像頭為主要傳感器,檢測和識別周圍的物體,如車輛、行人和騎行者。道路圖元素識別:識別和構(gòu)建道路圖,包括車道線、交通標志等關(guān)鍵道路元素。場景理解:理解整個場景的上下文,包括臨時道路阻塞和其他影響駕駛的情況。多任務(wù)處理:在統(tǒng)一的語言空間中聯(lián)合處理多種駕駛?cè)蝿?wù),用任務(wù)特定的提示生成輸出。鏈式思維推理:基于鏈式思維推理提升模型的決策能力和可解釋性,讓模型在預(yù)測未來軌跡時能闡述其決策理由。EMMA的技術(shù)原理多模態(tài)大型語言模型(MLLMs):基于預(yù)訓(xùn)練的MLLMs,如Gemini,模型在廣泛的互聯(lián)網(wǎng)規(guī)模數(shù)據(jù)上訓(xùn)練,擁有豐富的“世界知識”。自然語言表示:所有非傳感器輸入和輸出(如導(dǎo)航指令、車輛狀態(tài)、軌跡和3D位置)表示為自然語言文本。視覺問題回答(VQA):將駕駛?cè)蝿?wù)重新構(gòu)想為VQA問題,基于Gemini的預(yù)訓(xùn)練能力,保留廣泛的世界知識。自回歸模型:用自回歸Gemini模型處理交錯的文本和視覺輸入,生成文本輸出。端到端訓(xùn)練:基于端到端訓(xùn)練,直接從傳感器數(shù)據(jù)生成駕駛動作,消除模塊間符號化接口的需求。EMMA的項目地址arXiv技術(shù)論文:https://arxiv.org/pdf/2410.23262EMMA的應(yīng)用場景城市和郊區(qū)駕駛:EMMA能處理復(fù)雜的城市交通環(huán)境及郊區(qū)道路條件,提供實時的駕駛決策和軌跡規(guī)劃。交通擁堵和復(fù)雜路口:在交通擁堵或多路口場景中,EMMA能進行有效的路徑規(guī)劃和決策,確保安全高效的導(dǎo)航。特殊天氣和光照條件:EMMA能適應(yīng)不同的天氣和光照條件,如雨、霧或夜間駕駛,保持穩(wěn)定的駕駛性能。施工區(qū)域和臨時道路封閉:基于場景理解能力,EMMA能識別施工區(qū)域和臨時道路封閉情況,做出相應(yīng)的駕駛調(diào)整。緊急情況響應(yīng):在遇到緊急情況,如突然出現(xiàn)的障礙物或動物時,EMMA能迅速做出反應(yīng),采取避讓或減速等措施。