查看引用/信息源請點擊:中國AI網

利用三維先驗知識高效生成三維矢量圖形

中國AI網 2025年09月23日)三維矢量圖形因其能夠以最簡化的表現形式捕獲關鍵結構信息,在虛擬現實交互等眾多應用中發揮著至關重要的作用。盡管現有方法在生成三維矢量圖形方面展現出潛力,但它們通常存在處理耗時過長且難以保持視角一致性的問題。為突破所述局限,北京航空航天大學和寧波大學團隊提出了ViewCraft3D(VC3D),一種利用三維先驗知識高效生成三維矢量圖形的新方法。

具體而言,所提出方法首先進行三維物體分析,采用幾何提取算法使三維矢量圖形貼合底層結構,并通過視角一致性優化流程提升視覺質量。綜合實驗表明,VC3D在定性與定量評估中均優于現有方法,同時顯著降低了計算開銷。最終生成的三維草圖不僅保持視角一致性,更能有效捕獲原始物體的本質特征。

三維矢量圖形在抽象性與可理解性之間實現了獨特平衡,通過最簡的線條元素傳遞復雜空間信息。這種經濟高效的表征方式已成為增強虛擬環境沉浸體驗等眾多計算應用的核心要素。在虛擬現實創作環境中,三維矢量圖形作為直觀的構建模塊,使藝術家能在沉浸空間中直接具象化空間概念,彌合了想象與數字實現之間的鴻溝。

近期,交互式素描工具通過支持三維空間直接操作進一步增強了創作能力。盡管取得了進展,由于需要融合空間推理、技術界面操作與藝術判斷等多重能力,創建有效的三維矢量圖形對非專業人士仍極具挑戰性。這種專業壁壘極大限制了技術的普及與應用,凸顯了對自動化生成高質量三維矢量圖形技術的迫切需求。

近年來,二維矢量圖形生成領域取得顯著進展。CLIPasso和CLIPDraw等研究開創性地利用CLIP的視覺語義理解指導矢量圖形優化。基于這些成果,VectorFusion、DiffSketcher和SVGDreamer等方法進一步借助擴散模型實現更高保真度與可控性的矢量圖形生成。

與此同時,神經渲染技術與生成模型徹底改變了三維內容創作領域,使得高質量三維資產創建日益普及。這些進展的融合催生了三維矢量圖形研究,3Doodle和Diff3DS等開創性工作證明了生成具有表現力的三維線描圖的可行性。相關方法在創建三維矢量圖形方面雖取得令人印象深刻的成果,但現有技術主要依賴二維生成先驗,利用CLIP和擴散模型等作為監督信號,同時采用分數蒸餾采樣(SDS)在二維投影空間而非直接在三維空間進行優化。這些間接方法繼承了二維SDS優化的根本局限:跨視角不一致性,這限制了方法的能力,同一三維元素在不同視角下呈現不一致。

即使采用更強大的預訓練模型,這些方法依然難以生成在任意視角下保持一致的連貫三維矢量圖形。例如Diff3DS使用MVDream試圖解決該問題,但改善效果有限。另一方面,預訓練圖像生成模型提供的二維先驗僅能提供概念級指導,缺乏對人類繪制三維草圖關鍵線條的精確還原(如圖2所示),導致生成結果常出現雜亂筆畫、缺失細節和低結構保真度等問題。

北航、寧波大學團隊提出ViewCraft3D方法生成三維矢量圖形  第1張

為克服這些挑戰,北京航空航天大學和寧波大學團隊提出ViewCraft3D(VC3D),一種利用三維先驗生成高保真且視角一致的三維矢量圖形的新方法。不同于依賴二維先驗的優化方法,所提出方法基于三維域內的幾何屬性,使其能自然繼承三維物體的跨視角一致性,同時忠實保持空間結構與幾何細節(如圖1所示)。

北航、寧波大學團隊提出ViewCraft3D方法生成三維矢量圖形  第2張

具體而言,首先通過預訓練圖像轉三維模型重建三維網格,基于所得網格識別捕捉物體關鍵結構特征的三維顯著區域,隨后使用空間鄰近性與方向對齊進行點級聚類,并通過三維貝塞爾曲線擬合這些簇群,采用倒角距離損失確保精確幾何近似。為進一步優化矢量圖形,引入基于預訓練三維生成模型的三維分數蒸餾采樣損失,通過優化貝塞爾曲線參數提升視覺質量與結構保真度。由于優化過程直接在三維空間進行,所述方法天然保持視角一致性。

北航、寧波大學團隊提出ViewCraft3D方法生成三維矢量圖形  第3張

團隊將本方法與兩種最先進的三維矢量圖形生成方法進行對比:Diff3DS(設計深度感知可微分光柵化器,通過SDS損失利用二維擴散模型先驗從文本或圖像生成三維矢量圖形)和3Doodle(采用感知損失與多視角指導獲取物體的三維貝塞爾曲線表征)。

為全面評估生成三維矢量圖形的質量與保真度,采用CLIPScore衡量渲染視圖與輸入圖像間的語義對齊度,同時使用美學指標量化美學價值。圖5呈現了本方法與先前研究3Doodle和Diff3DS的定性對比。如圖所示,VC3D生成的三維矢量圖形更清晰、更精確且更具視角一致性。先前方法難以捕獲參考圖像中的精細細節(如蝴蝶圖案或咖啡杯把手),且輸出常包含過多雜亂線條(如椅子示例)。

北航、寧波大學團隊提出ViewCraft3D方法生成三維矢量圖形  第4張

表1展示了所有方法的定量分析結果。本方法在CLIPScore與美學評分指標上均優于先前方法:達到0.799的余弦相似度(高于3Doodle的0.729和Diff3DS的0.673),同時獲得最高美學評分。這些優異結果證明本方法能生成語義與幾何特性更優越的三維矢量圖形。除上述指標外,本方法在生成時間上展現出顯著優勢:僅需少量SDS損失優化步驟,總運行時間約0.5小時,較3Doodle(約6小時)和Diff3DS(約2小時)有顯著提升。

為驗證倒角距離損失與SDS損失的各自貢獻,團隊進行了消融實驗。從輸入中選取20張圖像子集,所有樣本均經SDS損失優化,記錄三個不同階段的實驗結果對應三種變體:(1)變體1:包含顯著點云提取與點云聚類的模型;(2)變體2:僅含第一階段(主體結構擬合)的模型;(3)完整方法。

北航、寧波大學團隊提出ViewCraft3D方法生成三維矢量圖形  第5張

結果如表2所示:變體2相對變體1的改進表明倒角距離損失優化的效益;變體2與完整方法的對比顯示細節優化階段可進一步提升CLIPScore與美學評分。圖6展示了倒角距離損失的優化過程:初始擬合的貝塞爾曲線常無法準確覆蓋顯著點云Ps,曲線間連貫性亦不理想;隨著優化進行,曲線逐漸延伸形成更完整結構,最終在保持原始形狀幾何保真度的同時提升顯著特征覆蓋率與曲線間連貫性。

圖7展示了SDS損失帶來的視覺改進:優化階段補全了先前忽略的細節(如珊瑚末端分枝)并提升三維矢量圖形的結構連貫性。這些結果表明所提出的兩階段方法有效平衡了結構準確性與視覺質量,生成更具表現力且語義準確的三維矢量圖形。團隊同時測試了貝塞爾曲線數量的影響:通過調整點云聚類階段的過濾閾值τ控制簇群數量(即曲線數量)。如圖8所示,當τ=10時,少于10點的簇群被移除;增加閾值會消除更多簇群,減少保留的貝塞爾曲線數量,產生更抽象的結果。

盡管VC3D能高效生成視角一致的三維矢量圖形,但目前缺乏曲線間的遮擋關系處理。在渲染二維圖像時,所有曲線具有統一透明度,可能影響視覺保真度。未來工作可借助現有網格處理該問題:通過確定每條貝塞爾曲線相對于camera參數的位置來處理遮擋關系。另外,考慮到本方法能以極低時間成本從網格生成對應三維矢量圖形,未來可基于開源網格數據集構建三維矢量圖形數據集,為后續研究提供基礎。

相關論文:ViewCraft3D: High-Fidelity and View-Consistent 3D Vector Graphics Synthesis

https://arxiv.org/pdf/2505.19492

總的來說,VC3D是一種利用三維先驗生成視角一致三維矢量圖形的新框架。通過直接在三維空間而非二維投影平面操作,所提出方法有效解決了視角不一致問題。兩階段算法首先通過幾何聚類與貝塞爾曲線擬合識別顯著結構,繼而使用預訓練圖像轉三維模型的SDS損失優化結果。實驗證明VC3D在保持幾何特征的同時維護跨視角一致性,并具有生成效率優勢。這項研究使高質量三維矢量圖形創作更易普及,適用于虛擬現實等領域。