支持實時移動生成式AI

中國AI網 2025年09月02日)生成式模型涵蓋了各種應用領域,包括圖像和視頻合成。隨著數字生成模型變得越來越大,以快速和節能的方式進行可擴展推理成為一項挑戰。在一項研究中,美國加州大學洛杉磯分校的研究人員成功創建了一個光學生成式模型,它能夠利用光的物理特性而非傳統電子計算來生成新穎圖像。

這種模型可嵌入智能眼鏡和AR/VR頭顯等移動平臺,并將支持實時移動生成式AI,通過可穿戴便攜系統直接將高級內容創作帶給用戶。

加州大學洛杉磯分校研發光學生成式AI模型  第1張

生成式AI能生成逼真的圖像、視頻和類人文本,但其快速發展代價高昂:激增的電力需求、龐大的碳足跡以及日益復雜的硬件要求。

針對這一情況,加州大學洛杉磯分校團隊開辟了一條新路徑。他們的系統不依賴數字計算,而是通過光學方式執行生成過程——利用光固有的并行性和速度實現單次曝光成像。利用這種方式,團隊解決了AI最大的瓶頸問題之一:平衡性能與效率。

模型將淺層數字編碼器與自由空間衍射光學解碼器集成,作為一個整體系統進行訓練。隨機噪點首先處理成”光學生成種子”,隨后投射到空間光調制器并通過激光照射。當光線穿過靜態的、預先優化好的衍射解碼器時,會產生在統計學上遵循目標數據分布的圖像。

與需要數百至數千次迭代步驟的數字擴散模型不同,這種過程可實現瞬時圖像生成,除通過淺層數字網絡的初始編碼和光照外無需額外計算。

為驗證方法,團隊在不同數據集展示了數值模擬和實驗結果。模型生成了手寫數字、時尚單品、蝴蝶、人臉的新圖像,甚至創作出受梵高啟發的藝術作品。根據標準圖像質量指標,光學生成輸出在統計上與先進擴散模型的結果相當。它們同時能生成多色圖像和高分辨率梵高風格藝術品,彰顯了光學生成AI方法的創作潛力。

研究人員開發了兩種框架:單次曝光光學生成模型(通過單次光學過程生成新圖像)和迭代光學生成模型(模擬數字擴散通過多步驟優化輸出)。這種靈活性使得同一光學硬件僅需更新編碼種子和預訓練衍射解碼器即可執行多重任務。

除高效性和多功能性外,團隊同時證明光學生成模型可提供內置隱私保護和安全性。由隨機噪點生成的單個編碼相位圖案,可通過不同波長照射,每個通道僅能由唯一匹配的衍射表面解碼。這種物理”密鑰-鎖”機制確保未經授權的用戶無法重構傳送給個體授權用戶的波長復用生成內容,為安全通信和個性化內容交付提供新機遇。

研究人員特別指出光學生成模型在可穿戴設備中的集成潛力——這些領域對緊湊型低功耗設計至關重要。通過用納米加工被動表面替代笨重的調制器,或使用集成光子學技術,模型可嵌入智能眼鏡和AR/VR頭顯等移動平臺。這類實現方案將支持實時移動生成式AI,通過可穿戴便攜系統直接將高級內容創作帶給用戶。

這項突破的廣泛意義重大:光學生成模型可降低大規模AI的能耗足跡,在實現超快推理速度的同時保證可持續部署。

相關論文:Optical generative models

https://www.nature.com/articles/s41586-025-09446-5

團隊指出:”我們的研究表明,光學技術可用于大規模執行生成式AI任務。通過消除推理過程中沉重的迭代數字計算需求,光學生成模型為瞬時節能AI系統打開大門,這可能徹底改變日常技術。”

展望未來,團隊設想通過納米加工和光子集成技術的進步,開發緊湊型低成本光學生成設備。