Unbounded是谷歌和北卡羅來納大學教堂山分校共同推出的無限人生模擬游戲。游戲突破傳統視頻游戲的局限,用生成模型,如大型語言模型(LLM 和視覺生成模型,創造一個沒有固定規則和邊界的游戲體驗。玩家與自己的虛擬角色互動,用...
-
-
GLM-4-Voice是智譜AI推出的端到端情感語音模型,能直接理解和生成中英文語音,支持實時語音對話,能根據用戶指令靈活調整語音的情感、語調、語速和方言等特征。模型由三個部分組成:GLM-4-Voice-Tokenizer...
-
FakeShield是北京大學研究人員推出的多模態大型語言模型框架,能檢測和定位圖像偽造。框架能評估圖像的真實性,生成被篡改區域的掩碼,提供基于像素級和圖像級篡改線索的判斷依據。FakeShield用GPT-4o增強現有數據...
-
MaskGCT是趣丸科技與香港中文大學(深圳)合作推出的語音合成大模型,基于掩碼生成模型與語音表征解耦編碼的技術,實現在聲音克隆、跨語種合成、語音控制等任務上的顯著效果。模型在多個TTS基準數據集上達到行業領先的水平,某些性...
-
Allegro是由Rhymes AI推出的先進的文本到視頻生成模型,能將簡單的文本輸入轉換成高達720p分辨率、每秒15幀、長度達6秒的高質量視頻內容。模型在視頻生成領域中表現出色,具有優異的質量和時間一致性,能根據描述性的...
-
Phidata是開源的AI智能體框架,幫助開發者構建具有記憶、知識、工具和推理能力的智能代理系統。支持創建能夠協同工作的代理團隊,提供用戶界面實現與代理的交互。Phidata包含監控和優化工具,便于跟蹤代理性能并和進行改進。...
-
Ditto是基于Flask的應用程序生成器,用戶基于簡單的自然語言描述創建多文件的Web應用程序。工具用一個簡單的LLM循環和一些輔助工具自動化編碼過程,將用戶的想法轉化為功能性的Web應用程序。用戶用英語描述想要構建的應用...
-
Flux.1 Lite是Freepik團隊推出的輕量級AI模型,目前處于alpha版本。Flux.1 Lite是基于80億參數的transformer架構,從FLUX.1-dev模型中提取而來。Flux.1 Lite的模型權...
-
HuggingChat macOS是Hugging Face推出的開源聊天應用程序,專為macOS用戶設計,基于強大的開源語言模型,將先進的AI對話能力直接帶到用戶的桌面上。應用支持多種頂尖的開源大語言模型,如Qwen 2....
-
OmniParser是微軟研究院推出的屏幕解析工具,將用戶界面的屏幕截圖轉換成結構化數據。工具專門設計用在提高基于大型語言模型(如GPT-4V)的UI代理系統的性能,基于準確識別可交互圖標和理解截圖元素的語義,增強代理執行任...










