近日,Meta AI 的研究團隊與加州大學伯克利分校及紐約大學的研究人員合作,推出了一種名為思維偏好優(yōu)化(Thought Preference Optimization, TPO)的方法,旨在提升經(jīng)過指令微調(diào)的大型語言模型(LLM)的回應質(zhì)量。
與傳統(tǒng)模型僅關(guān)注最終答案不同,TPO 方法允許模型在生成回應前進行內(nèi)部思考,從而產(chǎn)生更加準確和連貫的回答。
這種新技術(shù)結(jié)合了改進版的思維鏈(Chain-of-Thought, CoT)推理方法。在訓練過程中,該方法鼓勵模型在回應前先進行 “思考”,幫助其構(gòu)建更為系統(tǒng)的內(nèi)部思維過程。以往的直接 CoT 提示有時會降低準確性,并且由于缺乏明確的思維步驟,訓練過程較為困難。TPO 通過允許模型優(yōu)化和精簡其思維過程,克服了這些局限性,并且在用戶面前并不展示中間思維步驟。
在 TPO 的流程中,首先提示大型語言模型生成多個思維過程,然后在形成最終回應之前,對這些輸出進行抽樣和評估。隨后,一個評估模型將對輸出進行評分,確定最優(yōu)和最差的回應。通過將這些輸出作為選擇和拒絕對進行直接偏好優(yōu)化(Direct Preference Optimization, DPO),這一迭代訓練方法增強了模型生成更相關(guān)、高質(zhì)量回應的能力,從而提高了整體效果。
在這個方法中,訓練提示經(jīng)過調(diào)整,鼓勵模型在回應前進行內(nèi)部思考。經(jīng)過評估的最終回應由一個基于 LLM 的評估模型進行評分,這使得模型能在不考慮隱性思維步驟的情況下,僅依據(jù)回應的有效性來提升質(zhì)量。此外,TPO 利用直接偏好優(yōu)化創(chuàng)建包含隱性思維的偏好與拒絕回應對,經(jīng)過多次訓練循環(huán)來進一步細化模型的內(nèi)部過程。
研究結(jié)果顯示,TPO 方法在多項基準測試中表現(xiàn)優(yōu)異,超越了多種現(xiàn)有模型。這一方法不僅適用于邏輯和數(shù)學任務(wù),也在創(chuàng)意領(lǐng)域如市場營銷和健康等指令跟隨任務(wù)中展現(xiàn)了潛力。
論文:https://arxiv.org/pdf/2410.10630
劃重點:
?? TPO 技術(shù)提升了大型語言模型在生成回應前的思考能力,確保回應更加準確。
?? 通過改進的思維鏈推理,模型能夠優(yōu)化和精簡其內(nèi)部思維過程,提升回應質(zhì)量。
?? TPO 適用于多種領(lǐng)域,不僅限于邏輯和數(shù)學任務(wù),還能應用于創(chuàng)意和健康等領(lǐng)域。

