Find3D是什么

Find3D是加州理工學院推出的3D部件分割模型,能根據任意文本查詢分割任意對象的任何部分。Find3D用一個強大的數據引擎自動從互聯網上的3D資產生成訓練數據,并用對比訓練方法訓練一個可擴展的3D模型。Find3D在包括Objaverse-General、ShapeNet-Part和PartNet-E在內的多個數據集上展現出色性能,實現高達3倍于次佳方法的平均交并比(mIoU)提升,能處理來自iPhone照片和AI生成圖像的野外3D構建。

Find3D  加州理工學院推出的3D部件分割模型 第1張Find3D的主要功能開放世界3D部分分割:識別和分割任何物體的任何部分,只需用文本查詢即可,不受預定義部分集的限制。無需人工注釋:用數據引擎自動從互聯網上的3D資產生成訓練數據,無需人工注釋。高性能與泛化能力:在多個數據集上表現出色,與次佳方法相比,平均交并比(mIoU)提高3倍。快速推理:比現有基線快6到300倍,顯著提高推理速度。魯棒性:在不同的物體姿態和查詢條件下保持穩定的分割效果。查詢靈活性:支持不同類型的文本查詢,包括不同粒度和描述風格的部分查詢。Find3D的技術原理數據引擎:用2D基礎模型(如SAM和Gemini)自動注釋3D對象。將3D資產渲染成多個視圖,每個視圖傳遞給SAM進行分割。對于SAM返回的每個掩碼,查詢Gemini以獲取相應的部分名稱,形成(掩碼,文本)對。將部分名稱嵌入到視覺和語言基礎模型(如SigLIP)的潛在嵌入空間中。基于投影幾何將掩碼反投影到3D點云中,形成(點,文本嵌入)對。模型訓練:基于Transformer的點云模型,該模型將點云視為序列,并執行塊注意力。模型返回的點特征與文本嵌入的余弦相似度進行任何自由形式文本的查詢。用對比學習目標處理標簽的多義性和部分可見性問題,支持在數據引擎生成的數據上進行可擴展訓練。對比學習目標:解決每個點具有多個標簽的問題,及由于每個掩碼只覆蓋部分視圖而導致的未標記點問題。基于對比學習目標,讓模型能學習到魯棒的特征表示,在開放世界中實現準確的部分分割。Find3D的項目地址項目官網:ziqi-ma.github.io/find3dsiteGitHub倉庫:https://github.com/ziqi-ma/Find3DarXiv技術論文:https://arxiv.org/pdf/2411.13550v1在線體驗Demo:https://huggingface.co/spaces/ziqima/Find3DFind3D的應用場景機器人視覺與操作:在機器人領域,幫助機器人識別和定位物體的特定部分,進行精確的抓取、操作或交互。虛擬現實(VR)和增強現實(AR):在VR/AR應用中,提供對虛擬物體的更深層次理解,增強用戶與虛擬環境的交互體驗。計算機輔助設計(CAD):在CAD軟件中,幫助設計師快速識別和編輯3D模型的特定部分,提高設計效率。游戲開發:在游戲開發中,創建更復雜的3D物體交互,如角色裝備的更換或物體的破壞效果。建筑和工程:在建筑和工程領域,幫助分析和理解復雜的3D結構,如建筑模型或機械部件。