最近,超長上下文窗口的大型語言模型(LLMs)成為了人們討論的熱點。這些模型能夠在一個提示中處理數(shù)十萬甚至上百萬個標記,為開發(fā)者開啟了許多新的可能性。不過,這些長上下文 LLM 到底能多好地理解和利用所接收到的大信息呢?

為了解決這個問題,谷歌 DeepMind 的研究人員推出了名為 Michelangelo 的新基準,旨在評估長上下文推能力。

研究結(jié)果表明,盡管當前的頂尖模型在從大量上下文數(shù)據(jù)中提取信息方面取得了一定進展,但在需要推理和理解數(shù)據(jù)結(jié)構(gòu)的任務(wù)上仍然存在困難。

隨著長上下文窗口的 LLM 逐漸涌現(xiàn),研究人員開始意識到,需要新的基準來評估這些模型的能力。現(xiàn)有的評估多集中在信息檢索任務(wù)上,比如 “從干草堆中找針” 的評估,即在大量上下文中尋找特定的信息。然而,簡單的檢索并不等同于模型對整體上下文的理解。

為了解決這些問題,Michelangelo 提出了一種全新的評估方法,通過設(shè)置復雜的任務(wù),要求模型在處理長文本時進行更深入的推理和綜合。例如,該評估框架中包含多個與編程和自然語言相關(guān)的任務(wù),這些任務(wù)不僅考驗模型的記憶能力,更注重其理解和處理信息的深度。

在 Michelangelo 的評估任務(wù)中,模型需解決三種基本的長文檔綜合任務(wù),分別是 “潛在列表”、“多輪共指消解” 和其他多種應(yīng)用場景。這些任務(wù)不僅有助于評估模型在長文檔中的表現(xiàn),還能揭示其在推理和綜合方面的不足之處。

第一項是 “潛在列表”,模型需要處理一長串對 Python 列表的操作,過濾掉無關(guān)的或冗余的語句,以確定列表的最終狀態(tài)。

第二項是 “多輪指代解析”,模型需在長對話中理解對話結(jié)構(gòu)并解決引用問題。

第三項是 “我不知道”,模型在回答多個選擇題時,需要判斷上下文中是否包含答案,并能夠準確回應(yīng) “我不知道”。

研究人員在Michelangelo 上面對十個頂尖的 LLM(包括不同版本的 Gemini、GPT-4和 Claude)進行評估,他們在多達100萬個令牌的上下文中測試了模型。Gemini 模型在 MRCR 上表現(xiàn)最好,GPT 模型在 Latent List 上表現(xiàn)出色,Claude3.5Sonnet 在 IDK 上獲得最高分。

研究人員發(fā)現(xiàn)盡管這些模型在處理長上下文方面表現(xiàn)各異,但它們在面對更復雜的推理任務(wù)時,整體性能都有顯著下降。

這意味著即便在擁有超長上下文窗口的情況下,目前的 LLM 在推理能力上仍有待提高。

研究人員計劃持續(xù)擴展 Michelangelo 的評估項目,并希望將其直接開放,供其他研究者測試他們的模型。

論文入口:https://arxiv.org/abs/2409.12640

劃重點:

?? 長上下文 LLM 的新基準 Michelangelo 旨在評估模型的推理能力。

?? 研究表明現(xiàn)有模型在處理復雜推理任務(wù)時存在顯著性能下降。

?? 研究人員計劃擴展評估項目,以促進模型推理能力的進一步研究。