設(shè)計參數(shù)和計算效率高的Dit

中國AI網(wǎng) 2025年06月13日)具有數(shù)十億個模型參數(shù)的Diffusion Transformer(DiT)構(gòu)成了DALL.E,Stable-Diffusion和SORA等流行圖像和視頻生成模型的主干。盡管相關(guān)模型在增強現(xiàn)實/虛擬現(xiàn)實等低延遲應(yīng)用中十分必要,但由于其巨大的計算復(fù)雜性,它們無法部署在資源受限的邊緣設(shè)備,如Apple Vision Pro或Meta Ray-Ban眼鏡。

為了克服這個問題,伊利諾伊大學(xué)厄巴納-香檳分校團隊轉(zhuǎn)向Knowledge Distillation,并執(zhí)行徹底的設(shè)計空間探索,以實現(xiàn)給定參數(shù)大小的最佳DiT。特別是,團隊提供了如何選擇design knob的原則,如深度,寬度,attention head。

在模型性能、大小和速度之間出現(xiàn)了三方面的權(quán)衡,而這對邊緣實現(xiàn)擴散至關(guān)重要。研究人員同時提出了兩種蒸餾方法Teaching Assistant (TA)和Multi-In-One (MI1),以在DiT上下文中執(zhí)行特征蒸餾。

研究團隊為突破XR邊緣計算瓶頸,提出高效DiT模型壓縮方案  第1張

由于其高保真度、可泛化性、易于訓(xùn)練和可擴展性,DiT已經(jīng)成為生成圖像和視頻的重要方法。DiT構(gòu)成了各種實際部署的圖像和視頻生成模型的支柱,例如DALL.E,Stable-Diffusion和SORA。

出于模型的大參數(shù)大小和計算復(fù)雜性,必須使用云服務(wù)來遠程運行它們。從云到邊緣的數(shù)據(jù)傳輸相關(guān)的顯著延遲無法為需要在資源受限的邊緣設(shè)備實現(xiàn)的高幀率應(yīng)用提供支持,例如增強現(xiàn)實/虛擬現(xiàn)實。

在邊緣設(shè)備直接實現(xiàn)神經(jīng)網(wǎng)絡(luò)推理的主要挑戰(zhàn)來自邊緣硬件有限的內(nèi)存和能量容量。為了解決這個問題,我們需要設(shè)計參數(shù)和計算效率高的Dit。

邊緣設(shè)備通常擁有幾兆字節(jié)的片上存儲器,現(xiàn)有的實用模型則需要模型尺寸百萬參數(shù)的數(shù)量級,涉及數(shù)十億個參數(shù)。

先前關(guān)注高效Dit的研究只對特定層進行優(yōu)化,或者只關(guān)注精度,或者沒有推動實現(xiàn)預(yù)期性能所需的參數(shù)限制。伊利諾伊大學(xué)厄巴納-香檳分校團隊的重點不是通過新穎的算法方法提供SOTA DiT模型。相反,目標(biāo)是使用有原則的設(shè)計選擇,在給定的參數(shù)大小下提供最佳的DiT模型(在性能和速度方面)。

對于設(shè)計空間探索,在提取DiT模型的幾個design knob中,研究人員選擇了以下最相關(guān)的幾個——深度、寬度、attention head,以及用于提取的設(shè)置(損失函數(shù)和teacher模型)。前兩個knob影響效率和性能,后兩個knob只影響性能。

研究團隊為突破XR邊緣計算瓶頸,提出高效DiT模型壓縮方案  第2張

盡管時間步長十分重要,但團隊不認為它是一個design knob,因為業(yè)界已經(jīng)對其進行了廣泛的研究。

下面團隊提出了兩種方法來探索DiT的新蒸餾設(shè)置:

Teaching Assistant (TA):用于提取卷積網(wǎng)絡(luò),而團隊探索了使用具有LPIPS損失的teacher和TA組合特征蒸餾的可能性。

Multi-In-One (MI1):通過將擴散樣本映射到student的特定層,在單個步驟中執(zhí)行多個擴散時間步。采用前向擴散概率流ODE,利用多步擴散的teacher模型的噪點-圖像對計算中間噪點圖像。

表3表明,使用TA進行特征蒸餾沒有幫助。只有直接使用TA的蒸餾提供了邊際效益。MI1的性能比基線差,如表4所示。

需要注意的一個關(guān)鍵方面是,中間層的約束并不是導(dǎo)致性能較差的原因,因為(2,4,6)的性能優(yōu)于(3,6)。最后,團隊將基線方法與唯一基于SOTA擴散的transfomer模型進行了模型參數(shù)蒸餾比較,并在所有指標(biāo)上都打敗了它們,包括模型大小、FID和延遲。

相關(guān)論文:Designing Parameter and Compute Efficient Diffusion Transformers using Distillation

總的來說,團隊對DiT蒸餾進行了徹底的設(shè)計空間探索,并提供了獲得給定模型尺寸的SOTA DiT的設(shè)計原則。當(dāng)DiT在NVIDIA Jetson Orin Nano實現(xiàn)時,團隊確定了模型性能-尺寸-速度之間的關(guān)鍵權(quán)衡,并可以指導(dǎo)未來研究人員在實際領(lǐng)域進行創(chuàng)新。

對于這個研究,研究人員同時希望強調(diào)在將新方法與先前的作品進行比較之前,創(chuàng)建強大而明顯的基線的實踐。盡管TA方法略優(yōu)于基線,但結(jié)論是,與TA和MI1方法相比,根據(jù)原則設(shè)計的student模型是一個更好的選擇,因為它的訓(xùn)練成本更低。

未來的方向可以包括分析地證明上述指導(dǎo)方針,或?qū)⒃O(shè)計空間擴展到MLP比率和擴散時間步等knob,或為每個層定制attention head,特別是因為改變attention head大小會對延遲產(chǎn)生影響。