Gen2Act是由谷歌、卡內基梅隆大學和斯坦福大學共同推出的一種機器人操作策略,基于預測網絡數據中的運動信息來生成人類視頻,并將視頻用在引導機器人執行新任務。策略基于大量可用的網絡視頻數據,避免直接生成機器人視頻的復雜性。...
-
-
Loong是由香港大學和字節跳動聯合推出的一種新型長視頻生成模型,能生成外觀一致、動態豐富、場景過渡自然的分鐘級長視頻。模型基于自回歸大型語言模型(LLM),將文本和視頻信息整合為統一序列,用漸進式短到長訓練方案與損失重新加...
-
Illuminate 是一個由谷歌開發的項目,能將學術論文轉化為人工智能生成的音頻討論。項目基于谷歌強大的語言模型 Gemini,將論文內容轉換成引人入勝的對話,使用戶能在運動、開車等碎片時間里輕松學習。...
-
MLE-bench 是 OpenAI 推出的一個基準測試工具,旨在衡量AI代理(AI Agent)在機器學習工程任務中的表現。測試包含75個來自 Kaggle 的競賽任務,覆蓋自然語言處理、計算機視覺和信號處理等多個領域。A...
-
GTSinger是由浙江大學研究團隊推出的大型開源高質量歌聲數據集,旨在支持多樣化的歌聲任務。GTSinger包含80.59小時的專業錄音棚錄制的歌聲,涵蓋九種不同語言(漢語、英語、日語、韓語、俄語、西班牙語、法語、德語和意...
-
ScriptViz是由斯坦福大學研究人員推出的一款劇本可視化輔助工具,基于大型電影數據庫MovieNet,根據劇本文本和對話檢索出相匹配的電影畫面,將編劇的文字描述轉換成具體的視覺圖像。工具提供對視覺元素的精確控制,支持編劇...
-
LightRAG是由香港大學研究團隊推出的一種檢索增強生成(Retrieval-Augmented Generation, RAG)系統,基于整合圖結構索引和雙層檢索機制,提升大型語言模型在信息檢索中的準確性和效率。系統能捕...
-
CursorCore是一個基于大型語言模型(LLMs)的編程輔助框架,用對話式交互幫助程序員更高效地編寫和修改代碼。框架整合編程過程中的各種信息,包括代碼歷史、當前代碼和用戶指令,預測所需的代碼修改,減少程序員的工作量。...
-
Surya是一款功能強大的開源OCR(光學字符識別)工具包,專門設計用在文檔識別,支持超過90種語言的識別。Surya能準確識別出文檔中的文本,分析文本的閱讀順序,檢測文檔中的布局元素,如表格、圖片和標題,及識別和解析表格內...
-
MM1.5是蘋果公司推出的多模態大型語言模型,旨在增強文本豐富圖像理解、視覺指代和定位以及多圖像推理能力。模型基于數據為中心的訓練方法,在大規模預訓練、高分辨率OCR數據持續預訓練及優化的視覺指令微調,實現從1B到30B參數...










