豆包AI視頻模型是字節跳動推出的兩款AI視頻生成大模型:PixelDance 和 Seaweed 。PixelDance基于DiT結構,擅長理解復雜指令,生成連貫、多主體交互的視頻片段,適合制作故事性強的短片。Seaweed...
-
-
MIMO是阿里巴巴集團智能計算研究所推出的可控角色視頻合成的新型AI框架,基于空間分解建模技術,將2D視頻轉換為3D空間代碼,實現對角色、動作和場景的精確控制。MIMO能處理任意角色的合成,適應新穎的3D動作,并與真實世界場...
-
Llama 3.2是Meta公司最新推出的開源AI大模型系列,包括小型和中型視覺語言模型(11B和90B參數)以及輕量級純文本模型(1B和3B參數)。Llama 3.2模型專為邊緣設備和移動設備設計,支持128K令牌的上下文...
-
PortraitGen是中國科學技術大學研究團隊推出的一款AI人像視頻編輯工具。基于3D高斯濺射技術和神經高斯紋理機制,將2D人像視頻轉換為4D高斯場,實現高質量的3D和時間一致性編輯。...
-
MMMLU(多語言大規模多任務語言理解)是由OpenAI推出的一個開源數據集,旨在評估和提升人工智能模型在不同語言、認知和文化背景下的性能而設計。MMMLU建立在廣受歡迎的大規模多任務語言理解(MMLU)基準的基礎上,數據集...
-
oneWebot2是一款微信AI機器人一鍵運行軟件包,用戶下載exe文件后,雙擊即可啟動,無需復雜的Python環境配置。有圖形化界面,簡化配置流程,非技術用戶輕松設置和運行微信機器人。...
-
GOT-OCR 2.0是一種先進的光學字符識別(OCR)模型,推動OCR技術進入2.0時代。GOT-OCR 2.0端到端的模型由高壓縮編碼器和長上下文解碼器組成,能處理包括文本、數學公式、分子式、圖表、樂譜和幾何圖形在內的多...
-
豆包PixelDance是字節跳動最新推出的AI視頻生成模型,采用DiT結構,支持文生視頻和圖生視頻。它能理解復雜指令,生成長達10秒的連貫視頻片段,涵蓋多主體交互和時序性動作。...
-
豆包Seaweed是字節跳動推出的AI視頻生成模型,支持文生視頻和圖生視頻兩種模式。基于Transformer結構,利用時空壓縮技術進行訓練,原生支持多分辨率輸出,適配不同屏幕比例。豆包Seaweed默認生成720p、24f...
-
SFR-RAG是由Salesforce AI Research推出的一款大型語言模型,專注于提升機器在理解和生成文本方面的應用能力。模型特別強調對上下文的忠實理解,在檢索增強生成領域進行優化。...










