全球 AI 頂會 NeurIPS 2025 今晚公布獲獎名單,阿里巴巴通義千問團(tuán)隊?wèi){《Attention Gating Makes Better Foundation Models》拿下最佳論文獎,成為 4 篇獲獎?wù)撐闹形ㄒ恢袊婵住1緦么髸彩崭?2 萬篇,錄取率僅 25%,競爭強(qiáng)度創(chuàng)歷史新高。

論文核心是一把“滑動門”:在標(biāo)準(zhǔn)注意力后加一層可學(xué)習(xí)的門控,實時決定哪些頭、哪些 token 繼續(xù)參與下游計算。實驗顯示,1.7 B 稠密模型與 15 B MoE 模型在 3.5 T tokens 上訓(xùn)練,**參數(shù)只增 1 %,困惑度降 0.2,MMLU 漲 2 分**,Pile 各子域均取得一致提升。團(tuán)隊解釋,門控相當(dāng)于給注意力做“安檢”,無效信息被攔在 FFN 之前,計算效率與魯棒性同步提高。

該機(jī)制已裝進(jìn)即將發(fā)布的 Qwen3-Next,阿里同時把代碼與 1.7 B 實驗?zāi)P烷_源至 GitHub,供社區(qū)二次驗證。通義千問表示,下一步將把門控思路擴(kuò)展到多模態(tài)與長文本,讓“會自己過濾的注意力”成為下一代大模型的標(biāo)準(zhǔn)組件。