火山引擎在近期的視頻云技術大會上發布了一項重要創新:大模型訓練視頻預處理方案。這一技術已成功應用于豆包視頻生成模型,標志著AI視頻生成技術的重大進展。
火山引擎總裁譚待強調,AIGC和多模態技術正在深刻改變用戶體驗。基于抖音的實踐經驗,火山引擎正積極探索AI大模型與視頻技術的融合,為企業提供全方位解決方案。
抖音集團視頻架構負責人王悅指出,大模型訓練面臨諸多挑戰,包括海量數據處理成本高、樣本質量不一、處理鏈路復雜,以及多種異構算力資源的調度問題。
為應對這些挑戰,火山引擎開發的預處理方案基于自研的多媒體處理框架BMF,并借助Intel的多樣化算力資源。該方案在算法和工程層面進行了優化,能高效處理海量視頻數據,顯著提高模型訓練效率。
此外,火山引擎還開源了移動端后處理解決方案BMF lite版本,支持端側大模型接入和算子加速,更加輕量化和通用。
值得注意的是,9月24日發布的豆包視頻生成模型PixelDance已采用這一技術方案。該模型采用DiT架構,突破了多主體運動的復雜交互和多鏡頭切換的內容一致性難題。目前,豆包視頻生成模型已通過火山引擎向企業開放邀測。

