最近,蘋(píng)果公司的研究人員對(duì)大語(yǔ)言模型(LLM)的數(shù)學(xué)推理能力進(jìn)行了深入研究,推出了一項(xiàng)名為 GSM-Symbolic 的新基準(zhǔn)測(cè)試。
這個(gè)新基準(zhǔn)測(cè)試是在 GSM8K 的基礎(chǔ)上發(fā)展的,后者主要用于評(píng)估基礎(chǔ)數(shù)學(xué)能力。雖然許多 LLM 在 GSM8K 上的表現(xiàn)有所提升,但科學(xué)界對(duì)這些模型的推理能力仍然存有疑問(wèn),認(rèn)為現(xiàn)有的評(píng)估指標(biāo)可能無(wú)法全面反映它們的真實(shí)能力。研究發(fā)現(xiàn),LLM 通常依賴于概率模式匹配,而非真正的邏輯推理,導(dǎo)致它們對(duì)輸入的小變化非常敏感。
在這項(xiàng)新研究中,研究人員使用符號(hào)模板生成多樣化的數(shù)學(xué)問(wèn)題,從而提供更可靠的評(píng)估。實(shí)驗(yàn)結(jié)果顯示,當(dāng)問(wèn)題的數(shù)值或復(fù)雜度增加時(shí),LLM 的表現(xiàn)顯著下降。此外,即使是添加與問(wèn)題表面相關(guān)但實(shí)際上無(wú)關(guān)的信息,也可能導(dǎo)致模型性能下降高達(dá)65%。這些結(jié)果再次印證了 LLM 在推理時(shí)更多依賴模式匹配,而非正式的邏輯推理。
GSM8K 數(shù)據(jù)集包含超過(guò)8000個(gè)適合年級(jí)水平的數(shù)學(xué)問(wèn)題,因其流行而引發(fā)了一些風(fēng)險(xiǎn),比如數(shù)據(jù)污染和小問(wèn)題變化帶來(lái)的性能波動(dòng)。為了應(yīng)對(duì)這些挑戰(zhàn),GSM-Symbolic 的出現(xiàn)使得問(wèn)題的多樣性得到了有效控制。這項(xiàng)基準(zhǔn)測(cè)試對(duì)20多種開(kāi)放和封閉模型進(jìn)行了評(píng)估,使用了來(lái)自100個(gè)模板的5000個(gè)樣本,展現(xiàn)了 LLM 在數(shù)學(xué)推理能力上的深刻見(jiàn)解和局限性。
初步實(shí)驗(yàn)表明,不同模型在 GSM-Symbolic 上的性能差異顯著,整體準(zhǔn)確率低于在 GSM8K 上所報(bào)告的表現(xiàn)。研究進(jìn)一步探討了更改變量名稱(chēng)和數(shù)值對(duì) LLM 的影響,結(jié)果表明數(shù)值變化對(duì)性能的影響更大。此外,問(wèn)題的復(fù)雜性也直接影響準(zhǔn)確性,復(fù)雜問(wèn)題導(dǎo)致性能顯著下降。這些結(jié)果表明,模型在處理數(shù)學(xué)問(wèn)題時(shí)可能更依賴于模式匹配,而非真正的推理能力。
這項(xiàng)研究強(qiáng)調(diào)了當(dāng)前 GSM8K 評(píng)估的局限性,并介紹了新基準(zhǔn) GSM-Symbolic,旨在評(píng)估 LLM 的數(shù)學(xué)推理能力。總體而言,研究結(jié)果表明,LLM 在處理復(fù)雜問(wèn)題時(shí)仍需進(jìn)一步提升邏輯推理能力。
論文:https://arxiv.org/abs/2410.05229
劃重點(diǎn):
?? 研究人員推出新基準(zhǔn) GSM-Symbolic,評(píng)估 LLM 的數(shù)學(xué)推理能力。
?? LLM 在處理復(fù)雜數(shù)學(xué)問(wèn)題時(shí)表現(xiàn)較差,依賴模式匹配而非邏輯推理。
?? 研究揭示不同模型在新基準(zhǔn)下性能差異顯著,呼吁改善評(píng)估方法。

