大模型(LLM)如GPT、Llama等在人工智能領(lǐng)域掀起了一場革命,但如何高效地訓(xùn)練這些龐大的模型并使其符合人類價值觀仍然是一個難題。
強化學(xué)習(xí)與人類反饋(RLHF)作為一種重要的LLM訓(xùn)練方法,近年來得到廣泛應(yīng)用,但傳統(tǒng)的RLHF框架在靈活性、效率和可擴展性方面存在局限性。
為解決這些問題,字節(jié)跳動豆包大模型團隊開源了名為HybridFlow的RLHF框架,為LLM訓(xùn)練帶來了新的可能性。
RLHF通常包含三個階段:
首先,actor模型根據(jù)輸入的提示生成文本;然后,critic模型、reference模型和reward模型對生成的文本進行評估,并計算出相應(yīng)的價值、參考概率和獎勵值;
最后,利用這些評估結(jié)果對actor模型進行訓(xùn)練,使其生成更符合人類偏好的文本。傳統(tǒng)的RLHF框架通常采用單一控制器來管理整個數(shù)據(jù)流,但這對于需要分布式計算的LLM來說效率低下。
HybridFlow框架創(chuàng)新性地結(jié)合了單控制器和多控制器模式,并通過分層的API設(shè)計將復(fù)雜的計算和數(shù)據(jù)依賴關(guān)系解耦,從而實現(xiàn)RLHF數(shù)據(jù)流的靈活表示和高效執(zhí)行。
HybridFlow的優(yōu)勢主要體現(xiàn)在以下三個方面:
靈活支持多種RLHF算法和模型: HybridFlow提供了模塊化的API,用戶可以輕松地實現(xiàn)和擴展各種RLHF算法,例如PPO、ReMax和Safe-RLHF等。
高效的模型權(quán)重重組:3D-HybridEngine組件支持actor模型在訓(xùn)練和生成階段高效地進行模型權(quán)重重組,最大限度地減少內(nèi)存冗余和通信開銷。
自動化的模型部署和并行策略選擇: Auto Mapping組件可以根據(jù)模型負(fù)載和數(shù)據(jù)依賴關(guān)系自動將模型映射到不同的設(shè)備,并選擇最佳的并行策略,從而簡化模型部署流程并提升訓(xùn)練效率。
實驗結(jié)果表明,HybridFlow在運行各種RLHF算法時,吞吐量提升顯著,最高可達20.57倍。HybridFlow的開源將為RLHF研究和開發(fā)提供強大的工具,推動未來LLM技術(shù)的發(fā)展。
論文地址:https://arxiv.org/pdf/2409.19256

