在 AI 的世界里,"大力出奇跡" 似乎成了金科玉律。模型越大,數(shù)據(jù)越多,算力越強(qiáng),仿佛就能越接近智能的圣杯。然而,這狂飆突進(jìn)的背后,也隱藏著巨大的成本和能耗壓力。

為了讓 AI 訓(xùn)練更高效,科學(xué)家們一直在尋找更強(qiáng)大的優(yōu)化器,就像一位教練,引導(dǎo)模型的參數(shù)不斷優(yōu)化,最終達(dá)到最佳狀態(tài)。AdamW 作為 Transformer 預(yù)訓(xùn)練的默認(rèn)優(yōu)化器,多年來一直是業(yè)界標(biāo)桿。然而,面對(duì)日益龐大的模型規(guī)模,AdamW 也開始顯得力不從心。

難道就沒有一種方法,既能提升訓(xùn)練速度,又能降低能耗嗎?別急,一個(gè)全華人團(tuán)隊(duì)帶著他們的 "秘密武器" C-AdamW 來啦!

C-AdamW 全稱 Cautious AdamW,中文名 "謹(jǐn)慎 AdamW",是不是聽起來就很 "佛系"?沒錯(cuò),C-AdamW 的核心思想就是 "三思而后行"。

想象一下,模型的參數(shù)就像一群精力旺盛的小朋友,總想四處亂跑。AdamW 就像一位盡職盡責(zé)的老師,努力引導(dǎo)他們朝著正確的方向前進(jìn)。但有時(shí)候,小朋友們會(huì)過于興奮,跑錯(cuò)了方向,反而浪費(fèi)了時(shí)間和精力。

這時(shí)候,C-AdamW 就像一位智慧的長者,戴著一副 "火眼金睛",能夠精準(zhǔn)識(shí)別更新方向是否正確。如果方向錯(cuò)了,C-AdamW 就會(huì)果斷喊停,避免模型在錯(cuò)誤的道路上越走越遠(yuǎn)。

這種 "謹(jǐn)慎" 的策略,保證了每次更新都能有效地降低損失函數(shù),從而加快模型的收斂速度。實(shí)驗(yàn)結(jié)果表明,C-AdamW 在 Llama 和 MAE 預(yù)訓(xùn)練中,將訓(xùn)練速度提升至1.47倍!

更重要的是,C-AdamW 幾乎沒有額外的計(jì)算開銷,只需對(duì)現(xiàn)有代碼進(jìn)行一行簡單的修改即可實(shí)現(xiàn)。這意味著,開發(fā)者們可以輕松地將 C-AdamW 應(yīng)用到各種模型訓(xùn)練中,享受 "速度與激情"!

C-AdamW 的 "佛系" 之處,還在于它保留了 Adam 的哈密頓函數(shù),并在李雅普諾夫分析下不破壞收斂性保證。這意味著,C-AdamW 不僅速度更快,而且穩(wěn)定性也得到了保障,不會(huì)出現(xiàn)訓(xùn)練崩潰等問題。

當(dāng)然,"佛系" 不代表 "不思進(jìn)取"。研究團(tuán)隊(duì)表示,他們將繼續(xù)探索更豐富的 ? 函數(shù),并在特征空間而非參數(shù)空間中應(yīng)用掩碼,以進(jìn)一步提升 C-AdamW 的性能。

可以預(yù)見,C-AdamW 將成為深度學(xué)習(xí)領(lǐng)域的新寵,為大模型訓(xùn)練帶來革命性的改變!

論文地址:https://arxiv.org/abs/2411.16085

GitHub:

https://github.com/kyleliang919/C-Optim