最近,Waymo 在自動駕駛領域又邁出了重要一步。這家公司一直以來都把與谷歌 DeepMind 的合作視作自己的競爭優勢,如今,他們正在利用谷歌的多模態大型語言模型 Gemini 來提升其自動駕駛出租車的訓練效果。
Waymo 發布了一篇新的研究論文,介紹了一種名為 EMMA 的 “端到端多模態模型”,該模型能夠處理傳感器數據,從而生成自動駕駛汽車的未來行駛軌跡。這意味著 Waymo 的無人駕駛車輛可以更智能地做出行駛決策,并能有效地避開障礙物。
這項新技術的重要性不僅在于它的創新,還因為它可能改變目前大多數大型語言模型的應用范圍。Waymo 希望將 MLLM 視為其自動駕駛系統的 “一級公民”,這代表著未來的自動駕駛可能會與當前的聊天機器人或圖像生成器有很大的不同。
在這篇論文中,Waymo 提到,傳統的自動駕駛系統通常會為各種功能開發特定的 “模塊”,包括感知、映射、預測和規劃等。雖然這種方法在過去幾年內取得了一些進展,但它的局限性也顯而易見,尤其是在應對新的復雜環境時。Waymo 認為,像 Gemini 這樣的 MLLM 可以解決這些問題,因為它們具備廣泛的 “世界知識”,并且能夠進行 “鏈式思維推理”,模擬人類的邏輯推理。
EMMA 模型被開發出來是為了幫助 Waymo 的自動駕駛出租車在復雜環境中進行導航。比如,當遇到動物或道路施工等情況時,EMMA 能夠幫助無人駕駛汽車找到最佳行駛路徑。不過,Waymo 也意識到 EMMA 還有一些局限性,例如目前無法處理來自激光雷達或雷達的3D 傳感器輸入。
Waymo 在這方面的研究還需要進一步深入,但他們希望這項成果能激勵更多的研究,以應對目前存在的問題,推動自動駕駛技術的發展。
劃重點:
?? Waymo 正在利用谷歌的 Gemini 模型開發新的自動駕駛出租車訓練系統 EMMA,提升決策能力。
?? EMMA 模型能夠處理復雜的傳感器數據,幫助無人駕駛車輛智能避開障礙物。
?? 雖然 EMMA 有潛力,但 Waymo 承認仍需進一步研究以克服其現有局限性。

