近日,Waymo 公司正式發(fā)布了一款名為 “端到端多模態(tài)自動駕駛模型”(EMMA)的 AI 研究模型。該模型專門為自動駕駛技術(shù)進行了訓(xùn)練和微調(diào),利用 Gemini 的廣泛知識,旨在更好地理解復(fù)雜的道路場景。Waymo 在其發(fā)布的研究論文中詳細介紹了該模型的設(shè)計理念和技術(shù)優(yōu)勢,并探討了純端到端方法的優(yōu)缺點。
圖源備注:圖片由AI生成,圖片授權(quán)服務(wù)商Midjourney
Waymo 表示,EMMA 模型是建立在 Gemini 的基礎(chǔ)之上,充分發(fā)揮了其能力,專注于自動駕駛的任務(wù),如運動規(guī)劃和三維物體檢測。該模型在多個關(guān)鍵的自動駕駛?cè)蝿?wù)中展現(xiàn)出良好的任務(wù)遷移能力。Waymo 指出,與為每個任務(wù)訓(xùn)練單獨模型相比,EMMA 在路徑預(yù)測、物體檢測和道路圖理解等方面的表現(xiàn)顯著提升。
Waymo 的研究結(jié)果顯示,EMMA 的構(gòu)建為未來更多核心自動駕駛?cè)蝿?wù)的組合提供了一個有希望的研究方向。Waymo 的副總裁及研究負責(zé)人 Drago Anguelov 表示:“EMMA 展示了多模態(tài)模型在自動駕駛領(lǐng)域的強大能力與重要性,我們期待進一步探索多模態(tài)方法和組件如何助力構(gòu)建更加通用和適應(yīng)性強的駕駛系統(tǒng)。”
在處理原始攝像頭輸入和文本數(shù)據(jù)的能力方面,EMMA 也表現(xiàn)不俗。它能夠生成各種駕駛輸出,并通過建立統(tǒng)一的語言空間,充分利用 Gemini 的世界知識以及推理能力,增強決策過程,提高端到端規(guī)劃的效率。
Waymo 強調(diào),這項研究的重要性不僅限于自動駕駛汽車的應(yīng)用,還通過將先進的 AI 技術(shù)應(yīng)用于現(xiàn)實世界任務(wù),拓展了 AI 在復(fù)雜動態(tài)環(huán)境中的能力。
劃重點:
?? EMMA 模型專為自動駕駛訓(xùn)練,利用 Gemini 知識理解復(fù)雜道路場景。
?? 與傳統(tǒng)模型相比,EMMA 在關(guān)鍵任務(wù)上展現(xiàn)出更高效的表現(xiàn)。
?? 研究成果不僅應(yīng)用于自動駕駛,拓展了 AI 在動態(tài)環(huán)境中的應(yīng)用潛力。

