Loong是什么

Loong是由香港大學和字節(jié)跳動聯合推出的一種新型長視頻生成模型,能生成外觀一致、動態(tài)豐富、場景過渡自然的分鐘級長視頻。模型基于自回歸大型語言模型(LLM),將文本和視頻信息整合為統(tǒng)一序列,用漸進式短到長訓練方案與損失重新加權策略,克服長視頻訓練中的挑戰(zhàn)。Loong的設計支持模型在訓練時學習從文本提示生成視頻,擴展到生成超出訓練長度的視頻。Loong研究包括視頻標記重新編碼和采樣策略在內的推理策略,減少推理過程中的錯誤累積。

Loong  港大和字節(jié)聯合推出的長視頻生成模型 第1張Loong的主要功能長視頻生成:生成長達一分鐘或更長時間的視頻內容。文本到視頻的轉換:根據給定的文本提示生成與之相符的視頻內容。內容連貫性:確保生成的視頻在外觀、動態(tài)變化和場景過渡上具有高度連貫性。動態(tài)豐富性:捕捉并表現出視頻中的復雜動態(tài)和動作變化。場景自然過渡:在視頻的不同場景之間實現平滑過渡,保持視覺連貫性。Loong的技術原理統(tǒng)一序列建模: Loong將文本標記和視頻標記作為統(tǒng)一序列進行建模,讓自回歸大型語言模型(LLM)基于文本提示預測視頻標記。漸進式短到長訓練: 基于分階段訓練策略,逐漸增加訓練視頻的長度,模型能學習并生成更復雜、更具連貫性的視頻內容。損失重新加權: 為解決長視頻訓練中的損失不平衡問題,對早期幀的損失進行加權,強化模型對早期幀的學習。視頻標記重新編碼: 在視頻推理過程中,基于將預測的視頻標記解碼為像素空間的視頻幀,重新編碼,保持視頻內容的連貫性和一致性。采樣策略:基于Top-k采樣策略,從最可能的標記中進行選擇,減少潛在錯誤對后續(xù)標記生成的影響,緩解錯誤累積問題。Loong的項目地址項目官網:epiphqny.github.io/Loong-videoarXiv技術論文:https://arxiv.org/pdf/2410.02757v1Loong的應用場景娛樂和社交媒體:用戶生成個性化的長視頻內容,分享在社交媒體平臺上,如音樂視頻、旅行日志、趣味故事等。電影和視頻制作:在電影預告片、特效制作或者長視頻內容的初步創(chuàng)意階段,Loong快速生成視頻草圖,幫助導演和制片人探索不同的故事線和視覺效果。廣告和營銷:企業(yè)生成吸引人的廣告視頻,更生動的方式展示產品或服務,提高廣告的吸引力和記憶度。教育和培訓:在教育領域,L創(chuàng)建教育內容,如歷史重現、科學實驗模擬,提供更加直觀和互動的學習體驗。新聞和報道:新聞機構快速生成新聞故事的視頻摘要,提高報道的效率和吸引力。