MSQA(Multi-modal Situated Question Answering)是大規模多模態情境推理數據集,提升具身AI代理在3D場景中的理解與推理能力。數據集包含251K個問答對,覆蓋9個問題類別,基于3D場景圖和視覺-語言模型在真實世界3D場景中收集。MSQA用文本、圖像和點云的交錯多模態輸入,減少單模態輸入的歧義。引入MSNN(Multi-modal Next-step Navigation)基準測試,評估模型在情境間導航的能力,有助于開發更強大的情境推理模型,推動3D場景理解技術的發展。
MSQA的主要功能多模態情境推理:MSQA提供包含251K個問答對的數據集,問答對覆蓋9個不同的問題類別,涉及3D場景中的復雜情境和對象模態。數據模態的多樣性:支持文本、圖像和點云等多種數據模態,提供更全面的情境描述,減少單模態輸入的局限性和歧義。評估模型性能:設計MSQA和MSNN兩個基準測試任務,評估和比較不同模型在3D場景中的情境推理和導航能力。促進AI研究:基于提供大規模的多模態數據集,MSQA推動了具身AI和3D場景理解領域的研究進展。預訓練和模型開發:MSQA數據集作為預訓練材料,幫助開發和優化更強大的情境推理模型。MSQA的技術原理數據收集與生成:用3D場景圖和視覺-語言模型(VLMs)在真實世界的3D場景中自動且可擴展地收集數據。多模態輸入設置:引入交錯多模態輸入,結合文本、圖像和點云數據,提供更準確的情境和問題描述。情境意識建模:整合不同模態的輸入數據,提高模型對情境的感知和理解能力。評估基準測試設計:設計MSQA和MSNN兩個基準測試,分別針對情境問答和下一步導航任務,全面評估模型的多模態理解和情境推理能力。模型評估與分析:在MSQA和MSNN上進行實驗,分析現有模型的局限性,探索處理多模態輸入和情境建模的重要性。MSQA的項目地址項目官網:msr3d.github.ioarXiv技術論文:https://arxiv.org/pdf/2409.02389MSQA的應用場景智能導航系統:在室內或室外環境中,幫助開發理解復雜空間關系,提供導航指令的智能系統。增強現實(AR)和虛擬現實(VR):在AR和VR應用中,提供對虛擬環境的深入理解和交互,提升用戶體驗。機器人交互:使機器人理解和響應關于其周圍環境的問題,提高其在復雜3D空間中的操作和交互能力。自動駕駛車輛:輔助自動駕駛車輛理解交通場景,提供更準確的決策支持,應對復雜的道路狀況。智能助理和聊天機器人:理解用戶的3D空間查詢,提供更準確和上下文相關的回答。 
