查看引用/信息源請(qǐng)點(diǎn)擊:中國(guó)AI網(wǎng)

名為DPCD的大規(guī)模DPCQA數(shù)據(jù)庫(kù)

中國(guó)AI網(wǎng) 2025年10月21日)近年來(lái),虛擬現(xiàn)實(shí)/增強(qiáng)現(xiàn)實(shí)技術(shù)的進(jìn)步推動(dòng)了對(duì)動(dòng)態(tài)點(diǎn)云(Dynamic Point Clouds/DPC)的需求。與靜態(tài)點(diǎn)云不同,DPC能夠捕獲物體或場(chǎng)景內(nèi)部的時(shí)間變化,從而提供對(duì)真實(shí)世界更精確的模擬。盡管靜態(tài)點(diǎn)云的質(zhì)量評(píng)估研究已取得顯著進(jìn)展,但業(yè)界對(duì)動(dòng)態(tài)點(diǎn)云質(zhì)量評(píng)估(Dynamic Point Cloud Quality Assessment/DPCQA)的研究卻十分少,這阻礙了質(zhì)量應(yīng)用的發(fā)展,例如實(shí)際場(chǎng)景中的幀間壓縮和傳輸。

在一項(xiàng)研究中,上海交通大學(xué),密蘇里大學(xué)堪薩斯分校和字節(jié)跳動(dòng)團(tuán)隊(duì)引入了一個(gè)名為DPCD的大規(guī)模DPCQA數(shù)據(jù)庫(kù),包含15個(gè)參考DPC和525個(gè)經(jīng)過(guò)七種有損壓縮和噪點(diǎn)失真類型處理后的失真DPC。通過(guò)將樣本渲染為處理后視頻序列,研究人員進(jìn)行了一項(xiàng)全面的主觀實(shí)驗(yàn),收集了21位觀看者的平均意見得分進(jìn)行分析。

通過(guò)展示內(nèi)容特性、各種失真的影響以及MOS的準(zhǔn)確性,他們驗(yàn)證了所提出數(shù)據(jù)庫(kù)的異構(gòu)性和可靠性,另外評(píng)估了幾種客觀度量在DPCD的性能。實(shí)驗(yàn)結(jié)果表明,DPCQA比靜態(tài)點(diǎn)云質(zhì)量評(píng)估更具挑戰(zhàn)性。

上海交通大學(xué),密蘇里大學(xué)堪薩斯分校和字節(jié)跳動(dòng)發(fā)布大規(guī)模DPCQA數(shù)據(jù)庫(kù)  第1張

點(diǎn)云(Point Clouds/PC)作為沉浸式媒體中最具代表性的數(shù)據(jù)形式之一,在AR等眾多領(lǐng)域的需求日益增長(zhǎng)。點(diǎn)云由一系列離散點(diǎn)組成,每個(gè)點(diǎn)由其三維空間中的坐標(biāo)以及顏色、法向量等附加屬性來(lái)描述。鑒于實(shí)際應(yīng)用中點(diǎn)云不可避免地會(huì)引入失真并影響感知質(zhì)量,點(diǎn)云質(zhì)量評(píng)估(PCQA)已成為研究熱點(diǎn)。

PCQA大致可分為主觀質(zhì)量評(píng)估和客觀質(zhì)量評(píng)估。主觀質(zhì)量評(píng)估被認(rèn)為是最可靠的方法,它需要邀請(qǐng)觀看者在受控的測(cè)試環(huán)境中評(píng)估失真點(diǎn)云的質(zhì)量。客觀質(zhì)量評(píng)估則探索與人類感知質(zhì)量高度相關(guān)的度量標(biāo)準(zhǔn),旨在實(shí)際應(yīng)用中替代主觀評(píng)估,從而減少時(shí)間和成本。

近年來(lái),3D采集設(shè)備的進(jìn)步使得VR和AR比以往任何時(shí)候都更容易獲得。為了給用戶提供更具交互性和沉浸感的體驗(yàn),DPC受到了廣泛關(guān)注。與靜態(tài)點(diǎn)云不同,DPC包含時(shí)間維度,能夠更真實(shí)地表示三維環(huán)境,模擬真實(shí)世界的動(dòng)態(tài)特性。然而,由于DPC包含的數(shù)據(jù)量巨大,在實(shí)際應(yīng)用之前需要更高效的壓縮和傳輸技術(shù)。與靜態(tài)點(diǎn)云類似,相關(guān)過(guò)程會(huì)產(chǎn)生失真并影響感知質(zhì)量。所以,動(dòng)態(tài)點(diǎn)云質(zhì)量評(píng)估(DPCQA)已成為工業(yè)界和學(xué)術(shù)界日益重要的研究焦點(diǎn)。

目前,靜態(tài)點(diǎn)云質(zhì)量評(píng)估(Static Point Cloud Quality Assessment/SPCQA)已取得顯著進(jìn)展,但業(yè)界對(duì)DPCQA的研究依然有限。為便于比較,團(tuán)隊(duì)在表I中列出了現(xiàn)有的PCQA數(shù)據(jù)庫(kù)。

以往的研究通過(guò)提出新的基準(zhǔn)測(cè)試來(lái)進(jìn)行DPCQA評(píng)估。例如,vsenseVVDB和vsenseVVDB2研究了壓縮對(duì)點(diǎn)云的影響。然而,這些數(shù)據(jù)庫(kù)存在兩個(gè)主要缺點(diǎn):

1)規(guī)模有限:與SPCQA數(shù)據(jù)庫(kù)相比,現(xiàn)有的DPCQA數(shù)據(jù)庫(kù)(無(wú)論是參考樣本還是失真樣本)規(guī)模通常較小。

2)缺乏失真類型:這些數(shù)據(jù)庫(kù)僅關(guān)注傳統(tǒng)壓縮算法,忽視了新興的基于學(xué)習(xí)的壓縮技術(shù)以及其他場(chǎng)景產(chǎn)生的失真。

上述弱點(diǎn)限制了這些數(shù)據(jù)庫(kù)的泛化能力,同時(shí)阻礙了客觀DPCQA度量的開發(fā)和驗(yàn)證。特別是在運(yùn)動(dòng)圖像專家組內(nèi)部,關(guān)于基于學(xué)習(xí)的DPC壓縮技術(shù)的提案征集突顯了對(duì)可靠客觀DPCQA度量的需求。另外,盡管已經(jīng)開發(fā)出許多高性能的客觀SPCQA度量,但它們是否適用于DPC尚不確定。

鑒于上述挑戰(zhàn),為有效促進(jìn)DPCQA及相關(guān)算法(如DPC的壓縮和傳輸)的發(fā)展,上海交通大學(xué),密蘇里大學(xué)堪薩斯分校和字節(jié)跳動(dòng)團(tuán)隊(duì)創(chuàng)建了一個(gè)名為DPCD的大規(guī)模DPCQA數(shù)據(jù)庫(kù),而它包含豐富的內(nèi)容和多種失真類型。

研究人員選取了15個(gè)高質(zhì)量的參考DPC序列,并注入了七種不同強(qiáng)度的失真類型,總共生成了525個(gè)失真DPC。為了進(jìn)行主觀實(shí)驗(yàn),所有樣本都被渲染成處理后視頻序列,并邀請(qǐng)參與者在實(shí)驗(yàn)室環(huán)境中對(duì)其進(jìn)行評(píng)分以收集MOS。團(tuán)隊(duì)展示了源內(nèi)容的多樣性、MOS的準(zhǔn)確性以及不同類型失真的影響,并在最后評(píng)估了多種客觀度量的性能并對(duì)結(jié)果進(jìn)行了詳細(xì)分析,從而為未來(lái)的DPCQA研究提供有益的見解。

考慮到缺乏對(duì)客觀DPCQA的研究,他們?cè)贒PCD測(cè)試了現(xiàn)有客觀SPCQA度量的性能。度量主要分為三類:基于點(diǎn)、基于圖像和基于視頻的度量。研究人員選取了MPEG采用的9種基于點(diǎn)的度量、10種廣泛使用的基于圖像的度量以及1種基于視頻的度量。對(duì)于基于點(diǎn)和基于圖像的度量,對(duì)每個(gè)DPC的300幀得分取平均值。采用三個(gè)常見指標(biāo)來(lái)量化客觀度量的效率:斯皮爾曼等級(jí)相關(guān)系數(shù)(SRCC)、皮爾遜線性相關(guān)系數(shù)(PLCC)和均方根誤差(RMSE)。

上海交通大學(xué),密蘇里大學(xué)堪薩斯分校和字節(jié)跳動(dòng)發(fā)布大規(guī)模DPCQA數(shù)據(jù)庫(kù)  第2張

為確保預(yù)測(cè)得分與MOS值范圍的一致性,采用了一個(gè)非線性四參數(shù)邏輯擬合函數(shù)來(lái)調(diào)整它們的范圍。度量在整個(gè)數(shù)據(jù)庫(kù)上的性能如表III的“Overall”列所示。基于結(jié)果,可以得出以下結(jié)論:

在基于點(diǎn)的度量中,兩種基于MSE的P2Point方法表現(xiàn)最佳。相比之下,P2Plane表現(xiàn)較差,這可能是由于在估計(jì)法向量時(shí)引入了誤差。此外,使用邊界框?qū)τ?jì)算結(jié)果進(jìn)行歸一化并將其轉(zhuǎn)換為相應(yīng)的PSNR值,通過(guò)標(biāo)準(zhǔn)化尺度提高了性能。

在基于圖像的度量中,DISTS和LPIPS表現(xiàn)最佳。通過(guò)利用在大規(guī)模圖像數(shù)據(jù)集上預(yù)訓(xùn)練的網(wǎng)絡(luò),這些度量能有效捕捉代表性特征,從而增強(qiáng)了其泛化能力。

基于視頻的度量VMAF雖然考慮了時(shí)間信息,但并未產(chǎn)生優(yōu)越的結(jié)果。這可能是因?yàn)閂MAF主要關(guān)注自然場(chǎng)景中的時(shí)間變化,而我們的數(shù)據(jù)庫(kù)包含的是獨(dú)立的人體點(diǎn)云樣本。

盡管基于圖像的度量存在固有的信息損失,但其性能可與基于點(diǎn)的度量相媲美。這主要?dú)w因于基于圖像的度量擅長(zhǎng)提取紋理信息,而基于點(diǎn)的度量往往更關(guān)注幾何信息,可能未能充分利用多模態(tài)數(shù)據(jù)。

與全參考度量相比,所有無(wú)參考度量的性能都明顯較差。缺乏參考樣本作為基準(zhǔn)使得無(wú)法準(zhǔn)確評(píng)估失真,從而限制了評(píng)估的準(zhǔn)確性。

為了進(jìn)行更全面的分析,在表III中進(jìn)一步提供了針對(duì)不同失真類型的SRCC結(jié)果。從結(jié)果可以得出以下結(jié)論:

兩種基于MSE的P2Point方法在G-PCC上表現(xiàn)出最佳性能。由于G-PCC通常引入幾何失真,P2Point度量直接測(cè)量失真點(diǎn)云與參考點(diǎn)云中對(duì)應(yīng)點(diǎn)之間的歐幾里得距離,對(duì)此類失真更為敏感。

P2Plane MSE PSNR在V-PCC上表現(xiàn)最佳,而P2Plane MSE在DDPCC上表現(xiàn)最佳。基于MSE的度量?jī)?yōu)于基于豪斯多夫距離的度量,因?yàn)楹笳呱婕白畲蟪鼗@可能導(dǎo)致點(diǎn)云中坐標(biāo)值較大的離群點(diǎn)對(duì)最終結(jié)果產(chǎn)生負(fù)面影響。

DISTS在各種失真上表現(xiàn)出魯棒性,并在CN、DS和GGN上取得了最佳結(jié)果(SRCC值分別約為0.929、0.879和0.955),這得益于其有效捕捉局部和全局信息的能力。

總體而言,當(dāng)前度量存在若干局限性,總結(jié)如下:

對(duì)于基于點(diǎn)的度量,雖然基于MSE的P2Point度量表現(xiàn)良好,但仍有改進(jìn)空間。此外,其高計(jì)算復(fù)雜度使其難以在實(shí)際應(yīng)用中落地。

基于圖像和視頻的度量可能在投影過(guò)程中遭受信息損失,從而可能掩蓋原始失真。此外,它們的性能可能受到背景信息的影響,導(dǎo)致在不同內(nèi)容上的得分不穩(wěn)定。

沒有任何一種方法能在所有失真類型上始終表現(xiàn)良好。具體來(lái)說(shuō),P2Point對(duì)傳統(tǒng)壓縮敏感,但在測(cè)量顏色失真方面表現(xiàn)不佳。LPIPS和DISTS對(duì)CN有效,但在傳統(tǒng)壓縮方法上表現(xiàn)較差。此外,大多數(shù)度量在基于學(xué)習(xí)的DPC壓縮上表現(xiàn)不佳。傳統(tǒng)的基于點(diǎn)的度量,以及現(xiàn)有的基于圖像和基于視頻的度量,可能忽略了DPC的獨(dú)特特性和失真,導(dǎo)致在特定失真上的質(zhì)量預(yù)測(cè)不準(zhǔn)確。因此,迫切需要專門為DPC量身定制的有效客觀度量。而我們提出的數(shù)據(jù)庫(kù)可能有助于設(shè)計(jì)此類度量。

相關(guān)論文:DPCD: A Quality Assessment Database for Dynamic Point Clouds

https://arxiv.org/pdf/2505.12431

總的來(lái)說(shuō),團(tuán)隊(duì)創(chuàng)建了一個(gè)大規(guī)模動(dòng)態(tài)點(diǎn)云數(shù)據(jù)庫(kù)DPCD,包含15個(gè)參考DPC和511個(gè)具有精確MOS的失真樣本。他們對(duì)數(shù)據(jù)庫(kù)進(jìn)行了全面分析,驗(yàn)證了其內(nèi)容多樣性,闡釋了不同失真類型的特性,并評(píng)估了其MOS的準(zhǔn)確性。另外,團(tuán)隊(duì)在DPCD上評(píng)估了幾種常用客觀度量。最佳的全參考度量取得了約0.90的相關(guān)性,而所有無(wú)參考度量在預(yù)測(cè)DPC質(zhì)量方面表現(xiàn)掙扎,相關(guān)性僅為0.28至0.57。憑借精確且大規(guī)模的MOS標(biāo)簽,數(shù)據(jù)庫(kù)可作為客觀度量的基準(zhǔn),并在未來(lái)進(jìn)一步促進(jìn)與DPC相關(guān)的算法發(fā)展。