近日,OpenAI 的研究人員發(fā)布了一項令人振奮的研究成果,介紹了一種全新的連續(xù)時間一致性模型(sCM)。這一模型在生成多媒體內(nèi)容(如圖像、視頻和音頻)的速度上實(shí)現(xiàn)了飛躍,相較于傳統(tǒng)的擴(kuò)散模型,速度提高了整整50倍。具體來說,sCM 能夠在不到0.1秒的時間內(nèi)生成一幅圖像,而傳統(tǒng)擴(kuò)散模型則往往需要超過5秒。
研究團(tuán)隊通過這項技術(shù),成功地在僅需兩次采樣步驟的情況下,生成出高質(zhì)量的樣本。這一創(chuàng)新使得生成過程更為高效,而不會犧牲樣本的質(zhì)量。文章由 OpenAI 的兩位研究人員 —Lu Cheng 和 Yang Song 共同撰寫,并已在 arXiv.org 上發(fā)表,雖然尚未經(jīng)過同行評審,但其潛在影響不容小覷。
Yang Song 在2023年的一篇論文中首次提出了 “一致性模型” 的概念,這為 sCM 的發(fā)展奠定了基礎(chǔ)。盡管擴(kuò)散模型在生成真實(shí)感圖像、3D 模型、音頻和視頻方面表現(xiàn)出色,但其采樣效率不高,通常需要數(shù)十到數(shù)百個步驟,這讓其在實(shí)時應(yīng)用中顯得捉襟見肘。
采樣速度更快
sCM 模型的最大亮點(diǎn)是,它能在不增加計算負(fù)擔(dān)的情況下,實(shí)現(xiàn)更快的采樣速度。OpenAI 的最大 sCM 模型擁有15億個參數(shù),在一塊 A100GPU 上,生成樣本的時間僅為0.11秒。與擴(kuò)散模型相比,這導(dǎo)致掛鐘時間加快了50倍,使實(shí)時生成式 AI 應(yīng)用更加可行。
需要更少的計算資源
在樣本質(zhì)量方面,sCM 在 ImageNet512×512數(shù)據(jù)集上經(jīng)過訓(xùn)練,達(dá)到了1.88的 Fréchet Inception Distance(FID)分?jǐn)?shù),這與頂級擴(kuò)散模型相差不到10%。通過與其他先進(jìn)生成模型進(jìn)行廣泛基準(zhǔn)測試,研究團(tuán)隊證明了 sCM 在提供頂尖結(jié)果的同時,計算開銷也顯著減少。
未來,sCM 模型的快速采樣和可擴(kuò)展性將為多個領(lǐng)域的實(shí)時生成 AI 應(yīng)用開啟新的可能性。從圖像生成到音頻和視頻合成,sCM 都提供了一個實(shí)用的解決方案,滿足了對快速、高質(zhì)量輸出的需求。同時,OpenAI 的研究還暗示了進(jìn)一步優(yōu)化系統(tǒng)的潛力,可能會根據(jù)不同產(chǎn)業(yè)的需求來加速模型的性能。
官方博客:https://openai.com/index/simplifying-stabilizing-and-scaling-continuous-time-consistency-models/
論文:https://arxiv.org/html/2410.11081v1
劃重點(diǎn):
?? 新型 sCM 模型的速度提升了50倍,圖像生成時間縮短至0.1秒。
??? 僅需兩步采樣,sCM 能生成高質(zhì)量樣本,效率顯著提高。
?? 未來應(yīng)用廣泛,包括實(shí)時圖像、音頻和視頻生成,潛力巨大。

