使用空間和語義感知生成式AI來生成內容
(中國AI網 2025年07月03日)大型語言模型LLM可以幫助用戶根據用戶提示生成復雜的文本,并應用于協助用戶完成復雜的任務,例如生成各種格式的復雜文本內容和匯總來自各種來源的內容。然而,LL,缺乏對用戶所在環境和/或環境物體的空間意識,以及語義描述符與其在環境中的物理對應物以及環境中物體之間的聯系。所以,有必要改進當前的系統和方法,為實現空間感知LLM提供技術解決方案。
在一份專利申請中,微軟就介紹了一種使用空間和語義感知生成式AI來生成內容的系統。
當前的語言模型很難理解短語“轉動紅色旋鈕”,因為模型缺乏“紅色”和“旋鈕”與用戶面前的機器部件之間的關聯。所以,發明描述了一種空間語義感知生成語言模型,以實現視覺語言模型規劃。視覺語言模型規劃器促進多模態混合現實協作,使用戶能夠與空間語義感知生成語言模型協作,創建和/或使用混合媒體內容。
視覺語言模型規劃器使用生成模型為用戶提供空間語義感知指令,相關支持包括回答用戶關于物理對象的問題,并為用戶提供建議、更正和/或解釋。這種方法的一個技術優勢是,視覺語言模型規劃者利用空間語義感知生成語言模型與用戶一起計劃和協調各種動作,而不僅僅是使用傳統語言模型模型來生成文本內容。
......(全文 4828 字,剩余 4338 字)
請微信掃碼通過小程序閱讀完整文章或者登入網站閱讀完整文章
映維網會員可直接登入網站閱讀
PICO員工可聯系映維網免費獲取權限

