Meta FAIR、加州大學伯克利分校和紐約大學的研究人員聯合推出了一種全新技術,名為思維偏好優化(TPO)。這項創新旨在提升大語言模型(LLM)在處理指令時的回答質量。與傳統模型只關注最終答案不同,TPO 允許模型在給出最終回答之前,先進行內部思考和反思,從而生成更準確和連貫的回答。
TPO 技術的核心是改進后的連鎖思維(CoT)推理方法。這種方法在訓練過程中鼓勵模型 “思考一下再回答”,幫助它們在提供最終答案之前,構建更有條理的內在思維過程。傳統的 CoT 提示有時會導致準確性降低,而且由于缺乏明確的思考步驟,訓練起來相當棘手。而 TPO 通過讓模型在不暴露中間步驟給用戶的情況下,優化和簡化它們的思維過程,成功克服了這些挑戰。
在 TPO 的訓練過程中,首先提示大語言模型生成多種思路,然后再整理出最終回答。隨后,這些輸出結果會被一個 “評判者” 模型進行評估,以挑選出表現最好的和最差的回答。這些評估結果被用作直接偏好優化(DPO)的 “選擇” 和 “拒絕” 對,以此來不斷提升模型的響應質量。
通過調整訓練提示,TPO 鼓勵模型在回答之前進行內部思考。這一過程引導模型優化其回答,使其更加清晰和相關。最終,評估工作由一個基于 LLM 的評判模型來完成,該模型僅對最終答案進行評分,從而獨立于隱藏的思考步驟,幫助模型提升回答質量。TPO 還利用直接偏好優化,創建包含隱藏思維的優選和拒絕回答對,經過多輪訓練,進一步精細化模型的內部過程。
在對 AlpacaEval 和 Arena-Hard 的基準測試中,TPO 方法的表現優于傳統的響應基線,并且比 “思維提示” 的 Llama-3-8B-Instruct 模型更為出色。這一方法的迭代訓練優化了思維生成能力,使其最終超越了多個基線模型。值得一提的是,TPO 不僅適用于邏輯和數學任務,還在創意領域如市場營銷和健康等指令跟隨任務中大展拳腳。
AI 和機器人專家 Karan Verma 在社交平臺 X 上分享了他對 “思考型 LLM” 這一概念的看法,表示對此感到非常興奮,期待這項創新在醫療應用中的潛力,能為患者帶來更好的治療效果。
這種結構化的內在思維過程,使得模型能夠更有效地處理復雜的指令,進一步拓展其在需要多層次推理和細致理解的領域的應用,而無需人類提供特定的思維數據。這項研究表明,TPO 有可能使大語言模型在多樣化的上下文中更加靈活和高效,適用于那些對響應生成的靈活性和深度有較高要求的領域。

