最近,Meta、加州大學(xué)伯克利分校和紐約大學(xué)的科學(xué)家們合作研發(fā)了一種新技術(shù),名為 “思維偏好優(yōu)化”(Thought Preference Optimization,簡稱 TPO)。這項(xiàng)技術(shù)的目標(biāo)是提升大型語言模型(LLMs)在執(zhí)行各種任務(wù)時(shí)的表現(xiàn),讓 AI 在回答之前更加仔細(xì)地考慮自己的反應(yīng)。

研究人員表示,“思考” 應(yīng)該具有廣泛的實(shí)用性。比如,在創(chuàng)意寫作任務(wù)中,AI 可以利用內(nèi)在的思維過程來規(guī)劃整體結(jié)構(gòu)和角色發(fā)展。這種方法與以往的 “鏈?zhǔn)剿伎肌保–hain-of-Thought,CoT)提示技術(shù)有顯著不同。后者主要應(yīng)用于數(shù)學(xué)和邏輯任務(wù),而 TPO 的應(yīng)用范圍則更加廣泛。研究人員提到 OpenAI 的新 o1模型,認(rèn)為思考的過程對(duì)更廣泛的任務(wù)也有幫助。

那么,TPO 是如何運(yùn)作的呢?首先,模型會(huì)在回答問題之前生成一系列思維步驟。接下來,它會(huì)創(chuàng)造多個(gè)輸出,隨后由一個(gè)評(píng)估模型只評(píng)估最終的答案,而不是思維步驟本身。最后,通過對(duì)這些評(píng)估結(jié)果的偏好優(yōu)化,模型得以進(jìn)行訓(xùn)練。研究人員希望,提升回答質(zhì)量能夠通過改進(jìn)思維過程實(shí)現(xiàn),從而使模型在隱性學(xué)習(xí)中獲得更有效的推理能力。

在測試中,使用 TPO 的 Llama38B 模型在一般指令遵循的基準(zhǔn)測試中表現(xiàn)優(yōu)于沒有采用顯式推理的版本。在 AlpacaEval 和 Arena-Hard 基準(zhǔn)測試中,TPO 的勝率分別達(dá)到了52.5% 和37.3%。更令人興奮的是,TPO 在一些通常不需要顯式思考的領(lǐng)域,比如常識(shí)、市場營銷和健康等方面也取得了進(jìn)展。

不過,研究團(tuán)隊(duì)指出,目前的設(shè)置不適用于數(shù)學(xué)問題,因?yàn)樵谶@些任務(wù)中,TPO 的表現(xiàn)實(shí)際上低于基礎(chǔ)模型。這表明,針對(duì)高度專業(yè)化的任務(wù),可能需要采用不同的方法。未來的研究可能會(huì)集中在思維過程的長度控制以及思考對(duì)更大模型的影響等方面。

劃重點(diǎn):

?? 研究團(tuán)隊(duì)推出 “思維偏好優(yōu)化”(TPO),旨在提升 AI 在任務(wù)執(zhí)行中的思考能力。

?? TPO 通過讓模型在回答前生成思維步驟,利用評(píng)估模型優(yōu)化回答質(zhì)量。

?? 測試表明,TPO 在常識(shí)和市場營銷等領(lǐng)域表現(xiàn)出色,但在數(shù)學(xué)任務(wù)上表現(xiàn)不佳。