CogSound是智譜AI最新推出的音效模型,能為無聲視頻增添動人的音效。 基于GLM-4V的視頻理解能力,CogSound能精準識別理解視頻背后的語義和情感,為無聲視頻添加與之相匹配的音頻內容,可以生成更復雜的音效,如爆炸、水流、樂器、動物叫聲、交通工具聲等。模型的推出標志著智譜AI在視頻生成領域的技術進步,特別是在提升視頻的多模態體驗方面,增強視頻的沉浸感和真實感。
CogSound的技術特點基于Unet的潛空間擴散:高效音頻生成:CogSound基于潛空間擴散模型(Latent Diffusion Model)將音頻生成過程從高維原始空間轉移到低維潛空間,有助于降低計算復雜度。優化的U-Net結構:作為擴散模型的核心框架,U-Net結構經過優化,能在保持生成音頻的高質量和高效率的同時,提升音頻合成過程的性能。分塊時序對齊交叉注意力:加強音視頻特征的關聯性:通過引入分塊時序對齊交叉注意力(Block-wise Temporal Alignment Cross-attention)機制,CogSound能優化視頻長序列與音頻特征之間的特征匹配。精確的音視頻映射:通過學習幀級視頻特征與音頻特征之間的關系,實現精準的音視頻映射,確保每一幀畫面都能在音符中找到自己的位置,每一個音符也能在視頻中精準呼應。旋轉位置編碼:提升時序建模精度:CogSound整合了旋轉位置編碼技術,為序列中的每個位置提供唯一標識并捕捉位置間的相對關系,有助于提升時序一致性。連貫性和過渡自然性:旋轉位置編碼確保音頻序列的連貫性和過渡自然性,在處理長時序任務時,能避免音頻生成中的“斷層”或“錯位”。CogSound的主要功能生成與畫面匹配的音效:CogSound能為視頻生成與畫面匹配的音效,提供更加豐富的視聽體驗。支持4K超高清視頻生成:支持生成10秒、4K分辨率、60幀的超高清視頻,同時匹配相應的音效。適應不同播放需求:支持任意比例的視頻生成,以適應不同的播放需求,并為這些視頻生成匹配的音效。多通道視頻生成:同一指令/圖片可以一次性生成4個視頻,每個視頻都有相應的音效。提升視頻生成體驗:通過添加音效,CogSound增強了視頻內容的沉浸感和真實感,使視頻生成的體驗更加完整和生動。音效功能公測:CogSound的音效功能將很快上線公測,用戶將能夠體驗到由CogSound提供的音效生成服務。CogSound的應用場景視頻內容創作:為視頻內容創作者提供更加豐富的音效選擇,增強視頻的表現力。廣告制作:在廣告視頻中加入匹配的音效,提升廣告的吸引力和記憶點。影視后期:在影視后期制作中,為畫面提供相應的音效支持,提高制作效率和質量。 
