Astra對現實世界理解的發展比預期要快得多
(中國AI網 2025年04月22日)谷歌正積極打造多模態智能代理Project Astra,并認為眼鏡形態設備是AI的理想載體,可幫助實現一個“能看見且能說話的響應式助手”。
在一次采訪中,DeepMind負責人戴米斯·哈薩比斯(Demis Hassabis)表示團隊正努力開發這個多模態智能代理,而Astra對現實世界理解的發展比預期要快得多。

但Astra并不只是被動地看。DeepMind一直在努力教導這個人工智能如何生成逼真的圖像和視頻,并疊加在設備視場。在兩年前,工程師的視頻模型依然難以理解四肢是如何附著在狗狗身上。但現在,Veo 2已經能夠變出一只扇動翅膀的飛行狗。
這對增強現實眼鏡的未來發展將產生深遠的影響。想象一下,你的眼鏡不僅能告訴你面前的建筑是什么,而且可以把這個地點一個世紀前的樣子可視化,并以高清的方式呈現在你的視場之中。
然后是Genie 2, DeepMind的新世界建模系統。如果Astra可以理解這個世界的存在,則Genie就可以幫助將靜態圖像轉換為可通過眼鏡設備看到的可探索環境。
在演示中,當你往前走的時候,Genie可以在眼鏡視場的拐角位置生成各種有趣的數字對象,它甚至可以根據一張瀑布照片為穿戴眼鏡設備的用戶提供一個可玩的游戲關卡,并隨著你的探索行進動態生成。
可以看到,谷歌正全力推動Project Astra的發展,并希望以眼鏡形態實現一個“能看見且能說話的響應式助手”,從而提升你的日常生活體驗。
所以,谷歌正努力將Project Astra風格的感知帶到大家。現在已有一小部分人穿戴基于Astra的眼鏡,相關硬件已經可以使用Micro LED顯示屏投影一定的數字內容,并通過太陽穴附近的微型定向揚聲器傳遞音頻。與最初的谷歌眼鏡相比,這已經是向前邁進了一步。
當然,我們離真正的眼鏡圣杯設備依然存在相當遙遠的距離,而谷歌是否能幫助實現這一未來尚不得而知。但隨著Meta,蘋果,谷歌,三星等巨頭紛紛發力,未來或許人人都會穿戴可以在視場中疊加各種有用圖形,并通過語音向你提供不同說明的眼鏡。

