近日,谷歌和 OpenAI 之間的競爭再次升溫。在新版 GPT-4o 剛剛登頂 AI 競技榜后僅一天,谷歌便推出了最新的試驗版模型 Gemini-Exp-1121,迅速奪回了冠軍寶座。就在一周前,谷歌剛發(fā)布了 Gemini-Exp-1114,這似乎表明谷歌對 OpenAI 的動態(tài)反應(yīng)非常迅速。

谷歌 DeepMind 的首席科學(xué)家 Jack Rae 對此表示,這是一場 “閃電戰(zhàn)”,暗示著后期訓(xùn)練的迭代速度比預(yù)訓(xùn)練更為迅速。

根據(jù)官方信息,Gemini-Exp-1121在多個方面進行了顯著提升,主要體現(xiàn)在代碼能力、推理能力和視覺理解能力的增強。此外,該模型在復(fù)雜提示詞的風(fēng)格控制上,達到了與當前頂尖的 o1-preview 和 New Sonnet3.5相當?shù)乃健?/p>

在實際測試中,Gemini-Exp-1121在處理漫畫理解方面的表現(xiàn)也優(yōu)于新版 GPT-4o,其回答更為全面,能夠清晰使用小標題和重點加粗等方式進行信息呈現(xiàn)。而在經(jīng)典的動物過河邏輯推理題中,Gemini-Exp-1121的回答完全正確,展現(xiàn)出更強的邏輯推理能力,反觀新版 GPT-4o 則出現(xiàn)了一些失誤。

與此同時,OpenAI 方面也在積極研發(fā)新功能,近期在最新版本的 ChatGPT 中發(fā)現(xiàn)了 “實時攝像”(Live Camera)視頻功能的代碼,這標志著其在語音和視覺識別方面的進步。OpenAI 用戶在使用高級語音模式時也首次體驗到這一能力,顯示出其有意在未來擴大這一功能的應(yīng)用。

可以預(yù)見的是,明年與 Chatbot 的主要交流方式可能會從傳統(tǒng)的文字對話逐漸轉(zhuǎn)向語音和更為智能的代理服務(wù),這一轉(zhuǎn)變將可能由 “實時攝像” 功能的推出引領(lǐng)。

劃重點:

?? 谷歌新模型 Gemini-Exp-1121在 GPT-4o 登頂后迅速反超,重回 AI 競技榜首。

?? Gemini-Exp-1121在代碼、推理和視覺理解能力上均有所提升,表現(xiàn)出色。

?? OpenAI 正在研發(fā) “實時攝像” 功能,未來或?qū)⒏淖兣c AI 的交流方式。