Mochi 1是什么

Mochi 1是由Genmo公司推出的開源視頻生成模型,在動作質量和遵循用戶提示方面表現出色。Mochi 1基于Apache 2.0許可證發布,支持個人和商業用途的免費使用。模型目前提供480p的基礎版本,計劃在年底前推出支持720p的高清版本Mochi 1 HD,提供更高保真度和更流暢的動作。Mochi 1的模型權重和架構在Hugging Face平臺上找到,Genmo提供了一個托管的游樂場,用戶可以免費試用Mochi 1的功能。

Mochi 1  Genmo推出的開源高質量視頻生成模型 第1張Mochi 1的主要功能高保真度動作生成:Mochi 1 在動作生成方面取得了顯著進步,能生成流暢的視頻,模擬物理原理如流體動力學、毛發和頭發模擬,以及連貫、流暢的人類動作,開始跨越恐怖谷。強大的提示遵循能力:Mochi 1 能非常準確地遵循用戶提供的提示,生成符合預期的視頻內容。通過文本和視覺標記聯合構建視頻,類似于 Stable Diffusion 3,流式架構通過更大的隱藏維度,參數數量幾乎是文本流的四倍。開源架構:Mochi 1 的模型權重和源代碼根據 Apache 2.0 開源許可證發布,可以自由下載和使用,支持個人或商業用途。高效率:Mochi 1 使用了 Genmo 自己的非對稱擴散變壓器(Asymmetric Diffusion Transformer,簡稱 AsymmDiT)架構,架構通過簡化文本處理以專注于視覺效果來有效地處理用戶提示和壓縮視頻令牌。托管游樂場:Genmo 提供了一個新的托管游樂場,用戶可以免費試用 Mochi 1 的功能,體驗視頻生成的過程。高參數量:Mochi 1 使用了 100 億參數的擴散模型,用于訓練模型更加準確的變量數量。Mochi 1的技術原理非對稱擴散變壓器(AsymmDiT)架構:Mochi 1 使用了 Genmo 自主研發的非對稱擴散變壓器架構,這種架構通過簡化文本處理以專注于視覺效果,有效地處理用戶提示和壓縮視頻令牌。AsymmDiT 使用文本和視覺標記聯合構建視頻,類似于 Stable Diffusion 3,但其流式架構通過更大的隱藏維度,其參數數量幾乎是文本流的四倍,使用非對稱設計,可以降低部署時的內存使用量。實時視頻生成技術:Mochi 1 采用了 Pyramid Attention Broadcast(PAB)技術,通過減少冗余注意力計算,實現了高達 21.6 FPS 的幀率和 10.6 倍的加速,同時不會犧牲視頻生成質量。這種技術可以為任何未來基于 DiT 的視頻生成模型提供加速,讓其具備實時生成的能力。Mochi 1的項目地址項目官網:genmo.ai/blogHuggingFace模型庫:https://huggingface.co/genmo/mochi-1-preview在線體驗:https://www.genmo.ai/playMochi 1的應用場景視頻內容創作:Mochi 1 可以用于生成高質量的視頻內容,包括動畫、特效、短片等,為視頻制作者和藝術家提供強大的創作工具。教育和培訓:在教育領域,Mochi 1 可以生成教學視頻,幫助解釋復雜的概念或模擬實驗過程,提高學習效率。娛樂和游戲:在游戲和娛樂行業,Mochi 1 可以用來生成游戲內的動態背景視頻或故事情節,增強玩家的沉浸感。廣告和營銷:Mochi 1 可以用于生成吸引人的廣告視頻,幫助企業以更低的成本創造更具吸引力的廣告內容。社交媒體:在社交媒體平臺上,Mochi 1 可以幫助內容創作者生成獨特的視頻內容,吸引更多關注和互動。新聞和報道:在新聞行業,Mochi 1 可以用于生成新聞報道的背景視頻或模擬事件的動態視覺效果,提高報道的吸引力。