人工智能公司 Anthropic 宣布Claude3.5系列模型的重磅升級,包括全新的 Claude3.5Sonnet 和 Claude3.5Haiku。升級后的版本號稱可以讓人工智能全面接管你的個人電腦,它能夠執(zhí)行多種基本任務(wù),比如模擬輸入鍵盤和鼠標點擊,從而使用你電腦上安裝的任何應(yīng)用程序。
編碼能力顯著提升,超越OpenAI o1-preview 模型
新的 Claude3.5Sonnet 在各方面都有顯著提升,尤其是在編碼能力方面。它在 SWE-bench Verified 上的得分從33.4% 提升到49.0%,超越了所有公開可用的模型,包括 OpenAI 的 o1-preview 模型。
此外,它在 TAU-bench 上的表現(xiàn)也有所提升,特別是在零售和航空領(lǐng)域。這一切都在保持與前產(chǎn)品相同的價格和速度下實現(xiàn)。
客戶的反饋顯示,升級后的 Claude3.5Sonnet 在 AI 編碼方面有了質(zhì)的飛躍。例如,GitLab 測試了這個模型用于 DevSecOps 任務(wù),發(fā)現(xiàn)其推理能力有了明顯提升,且沒有增加延遲。
Claude3.5Haiku 是Claude下一代最快的模型,以相同的成本和速度超越了 Claude3Opus,并在多個智能基準測試中表現(xiàn)出色,特別是在編碼任務(wù)上。Claude3.5Haiku 的低延遲和更精準的指令跟隨能力,使其非常適合用戶界面產(chǎn)品和個性化體驗的生成。
像人類一樣操縱電腦
新推出的電腦使用功能是一個全新的嘗試。官方表示這并不是為 Claude 開發(fā)特定的工具,而是教授它通用的計算機技能,讓它能夠使用各種標準工具和軟件程序。開發(fā)者可以利用這一能力來自動化重復(fù)的流程、構(gòu)和測試軟件,以及進行開放性研究等。
當(dāng)然,目前 Claude 在使用計算機時的能力仍然有待提高。一些簡單的操作,比如滾動和拖動,目前對于 Claude 來說仍然存在挑戰(zhàn)。為了確保安全,官方還開發(fā)了新的分類器,能夠識別電腦使用是否造成了潛在的危害。
Anthropic 的首席科學(xué)官賈里德?卡普蘭在接受采訪時表示:“我們即將進入一個新時代,人工智能可以利用你作為個人所使用的所有工具來完成任務(wù)。” 這項更新標志著 Anthropic 在將商業(yè) AI 模型從傳統(tǒng)的聊天框架擴展為全面的 “AI 代理” 方面邁出了重要一步。
在一段演示中,Claude 被要求為朋友計劃一次去金門大橋觀看日出的旅行。AI 不僅打開了網(wǎng)頁,還在谷歌上查找了一個合適的觀景地點,并將行程添加到日歷應(yīng)用中。雖然這個表現(xiàn)令人印象深刻,但《連線》指出,它并沒有提供一些額外的信息,比如如何到達目的地。
此外,在另一個演示中,Claude 被要求搭建一個簡單的網(wǎng)站,結(jié)果它使用微軟的 Visual Studio Code 成功創(chuàng)建了一個網(wǎng)站,并打開本地服務(wù)器進行測試。不過,在這個過程中,它遇到了一些小錯誤,但在提示下成功修復(fù)了代碼。
Claude 3.5 Sonne通過從客戶關(guān)系管理系統(tǒng)(CRM)中檢索所需信息,自主完成一份供應(yīng)商申請表,展示了其在不同軟件平臺上執(zhí)行多步驟任務(wù)的能力。
升級后的Claude3.5Sonnet現(xiàn)在可供所有用戶使用。從今天開始,開發(fā)人員可以在 Anthropic API、Amazon Bedrock 和 Google Cloud 的 Vertex AI 上使用計算機測試版進行構(gòu)建。而新的 Claude3.5Haiku 將于本月晚些時候發(fā)布。
官方博客:https://www.anthropic.com/news/3-5-models-and-computer-use
劃重點:
?? Claude3.5Sonnet 和 Haiku 模型重磅升級,編碼能力顯著提升。
?? 新推出的電腦使用功能允許 Claude 像人一樣操作計算機,開啟更多可能性。
?? 使用 AI 助手帶來了安全隱患,Anthropic 強調(diào)逐步觀察和改進以確保安全性。

