中國私募巨頭幻方量化旗下的 DeepSeek,近日發(fā)布了其最新的推理專注型大型語言模型 R1-Lite-Preview。該模型目前僅通過 DeepSeek Chat 這一網(wǎng)頁聊天機(jī)器人平臺提供給公眾使用。
DeepSeek 以其在開源 AI 生態(tài)系統(tǒng)中的創(chuàng)新貢獻(xiàn)而聞名,這次的新發(fā)布旨在為公眾帶來高水平的推理能力,同時(shí)保持對可訪問性和透明性的承諾。盡管 R1-Lite-Preview 目前僅在聊天應(yīng)用中可用,但它已憑借接近甚至超過 OpenAI 近期發(fā)布的 o1-preview 模型的性能引起了廣泛關(guān)注。
R1-Lite-Preview 采用 “鏈?zhǔn)剿季S” 推理,能夠展示其在響應(yīng)用戶查詢時(shí)所經(jīng)歷的不同思維過程。
盡管某些思維鏈可能對人類而言顯得無厘頭或錯誤,但整體而言,R1-Lite-Preview 的回答非常準(zhǔn)確,甚至能夠解決一些傳統(tǒng)強(qiáng)大 AI 模型如 GPT-4o 和 Claude 系列遇到的 “陷阱” 問題,例如 “草莓” 這個詞里有多少個字母 R?“9.11和9.9哪個大?”
根據(jù) DeepSeek 的說法,該模型在需要邏輯推理、數(shù)學(xué)思考和實(shí)時(shí)問題解決的任務(wù)中表現(xiàn)出色。其性能在 AIME(美國邀請數(shù)學(xué)考試)和 MATH 等已建立的基準(zhǔn)測試中超越了 OpenAI o1-preview 的水平。
此外,DeepSeek 還發(fā)布了模型的擴(kuò)展數(shù)據(jù),展示了在給予模型更多時(shí)間或 “思考令牌” 以解決問題時(shí),其準(zhǔn)確性穩(wěn)步提高的趨勢。圖表強(qiáng)調(diào),隨著思維深度的增加,該模型在 AIME 等基準(zhǔn)上的得分提升。
目前,R1-Lite-Preview 的發(fā)布在關(guān)鍵基準(zhǔn)中表現(xiàn)優(yōu)異,能夠處理從復(fù)雜數(shù)學(xué)到邏輯場景的一系列任務(wù),得分與頂級推理模型如 GPQA 和 Codeforces 相當(dāng)。該模型透明的推理過程讓用戶能夠?qū)崟r(shí)觀察其邏輯步驟,增強(qiáng)了系統(tǒng)的責(zé)任感和可信度。
值得注意的是,DeepSeek 尚未發(fā)布完整的代碼供第三方獨(dú)立分析或基準(zhǔn)測試,也未提供 API 接口供獨(dú)立測試,該公司尚未發(fā)布相關(guān)的博客文章或技術(shù)文檔,說明 R1-Lite-Preview 的訓(xùn)練或構(gòu),這讓其背后的起源依然充滿疑問。
R1-Lite-Preview 目前可以通過 DeepSeek Chat(chat.deepseek.com)免費(fèi)使用,但其高級 “深思” 模式每天限量50條消息,用戶可借此體驗(yàn)其強(qiáng)大能力。DeepSeek 計(jì)劃發(fā)布 R1系列模型的開源版本和相關(guān) API,進(jìn)一步支持開源 AI 社區(qū)的發(fā)展。
DeepSeek 繼續(xù)在開源 AI 領(lǐng)域中推動創(chuàng)新,R1-Lite-Preview 的發(fā)布為其在推理和可擴(kuò)展性方面增加了新的維度。隨著企業(yè)和研究者探索推理密集型 AI 的應(yīng)用,DeepSeek 的開放承諾將確保其模型成為發(fā)展和創(chuàng)新的重要資源。
官方入口:https://www.deepseek.com/
劃重點(diǎn):
?? DeepSeek 發(fā)布 R1-Lite-Preview 模型,性能接近并超越 OpenAI o1。
?? 模型展示透明的推理過程,用戶可以實(shí)時(shí)觀察邏輯步驟。
?? 深度學(xué)習(xí)與邏輯推理能力顯著,未來將發(fā)布開源版本和 API。

