機器學習早已滲透到各種線上服務中,網購便是其中最成功的領域之一。近年來,機器學習被應用于各種網購任務,例如用戶查詢、瀏覽記錄、評論分析、產品屬性提取等等。為了促進機器學習方法的發展,許多基準測試應運而生,旨在降低研究人員和工程師開發和評估針對真實網購任務的新穎解決方案的門檻。

然而,現有的模型和基準通常是為特定任務量身定制的,無法完全捕捉網購的復雜性。大型語言模型 (LLM) 憑借其多任務和少樣本學習能力,有可能通過減少特定任務的工程工作量并為用戶提供交互式對話來徹底改變在線購物體驗。盡管潛力巨大,但大型語言模型在在線購物領域也面臨著獨特的挑戰,例如特定領域的購物概念、隱性知識和異構的用戶行為。

為應對這些挑戰,亞馬遜的研究人員提出了 Shopping MMLU,這是一個基于真實亞馬遜數據的多任務在線購物基準測試。Shopping MMLU 包含57項任務,涵蓋4大購物技能:概念理解、知識推理、用戶行為對齊和多語言能力,因此可以全面評估大型語言模型作為通用購物助手的潛力。

這 Shopping MMLU 可不是一般的“考試”,它可是從真實的亞馬遜購物數據中提取了57項任務,涵蓋了 概念理解、知識推理、用戶行為對齊和多語言能力 四大模塊。簡單來說,就是要考察 AI 助手是否能像真人導購一樣,理解你的需求,幫你找到心儀的寶貝。

亞馬遜的研究人員用 Shopping MMLU 測試了20多個現有的 AI 模型,結果發現:

那些大名鼎鼎的專有 AI 模型,比如 Claude-3Sonnet、ChatGPT,表現確實不俗,穩坐第一梯隊。 不過,開源的 AI 模型也迎頭趕上,大有挑戰“權威”的勢頭。

Shopping MMLU 的測試結果也揭示了一個有趣的現象:網購其實是一個多任務學習問題。 也就是說,AI 助手需要同時掌握多種技能才能勝任這份工作。

更令人驚喜的是,那些在通用領域表現出色的 AI 模型,在網購領域也毫不遜色。 這說明,AI 助手可以將通用知識遷移到特定領域,快速學習新技能。

當然,AI 助手也并非天生完美。 研究人員發現,一些常用的 AI 訓練方法,比如指令微調 (IFT),在某些情況下可能會導致模型過度擬合,反而影響其性能。

此外,少樣本學習也是 AI 助手面臨的一大挑戰。 這意味著,AI 助手在面對新任務時,需要快速學習,而不能總是依賴大量的訓練數據。

總之,亞馬遜的 Shopping MMLU 基準測試為 AI 助手的發展指明了方向。未來,我們期待看到更加智能、更加人性化的網購 AI 助手,讓我們的購物體驗更加便捷、更加愉悅。

研究人員還發現了一些值得關注的細節:

Shopping MMLU 比現有的其他網購 AI 數據集更加復雜和具有挑戰性。

特定領域的指令微調效果并不總是很好,而且只在已經掌握大量通用知識的強大模型上才有效。

目前,即使是最先進的 AI 模型,在某些網購任務上的表現也還不如專門針對這些任務設計的算法。

這項研究的結果表明,構建一個完美的網購 AI 助手還有很長的路要走。未來的研究方向包括:開發更加有效的 AI 訓練方法,構建更加多樣化的網購 AI 數據集,以及將 AI 模型與特定任務算法相結合,打造更加強大的混合型 AI 系統。

最后,研究人員也坦誠地指出了這項研究的一些局限性:

Shopping MMLU 中的數據主要來自亞馬遜,可能無法完全代表其他電商平臺的用戶行為。

盡管研究人員已經盡力避免,但 Shopping MMLU 中的數據可能仍然存在一些錯誤。

總而言之,亞馬遜的這項研究為我們打開了通往未來智能購物時代的大門。相信在不久的將來,網購 AI 助手將成為我們生活中不可或缺的一部分。

論文地址:https://arxiv.org/pdf/2410.20745

數據及評測代碼:

https://github.com/KL4805/ShoppingMMLU

KDD Cup 2024 Workshop及獲獎隊伍解法:

https://amazon-kddcup24.github.io/

評估榜單:

https://huggingface.co/spaces/KL4805/shopping_mmlu_leaderboard