StepFun AI 團隊近日推出了新的音頻大語言模型 Step-Audio-R1,該模型在生成推理時可以有效利用計算資源,解決了當前音頻 AI 模型在處理長推理鏈時準確性下降的問題。研究團隊指出,這一問題并非音頻模型固有的局限,而是由于訓練過程中采用了文本替代推理的方式。

目前大多數音頻模型在訓練時主要依賴于文本數據,導致它們的推理過程更像是閱讀文字,而非實際聆聽聲音。StepFun 團隊稱這一現象為 “文本替代推理”。為了應對這一問題,Step-Audio-R1要求模型在生成答案時必須基于音頻證據進行推理。這一做法通過一種稱為 “模態化推理蒸餾” 的訓練方法來實現,該方法特別選取并提煉出與音頻特征相關的推理軌跡。

在架構上,Step-Audio-R1基于 Qwen2音頻編碼器,對原始波形進行處理,并通過音頻適配器將輸出下采樣至12.5Hz。然后,Qwen2.532B 解碼器消耗音頻特征并生成文本。模型在生成答案時,始終會在特定標簽內生成明確的推理塊,這樣可以確保推理的結構和內容得以優化,同時不影響任務的準確性。

訓練過程中,模型經歷了監督冷啟動階段和強化學習階段,涉及文本和音頻任務的混合。在冷啟動階段,團隊使用了500萬例樣本,涵蓋了1億個文本標記和40億個音頻配對數據。在這一階段,模型學習如何生成對音頻和文本都有用的推理,并建立了基本的推理能力。

通過多輪 “模態化推理蒸餾”,研究團隊從音頻問題中提取出真實的聲學特征,并用強化學習進一步優化模型的推理能力。Step-Audio-R1在多個音頻理解與推理基準測試中表現出色,其綜合得分接近行業領先的 Gemini3Pro 模型。

論文:https://arxiv.org/pdf/2511.15848

劃重點:

?? StepFun AI 推出的 Step-Audio-R1解決了音頻推理中的準確性下降問題,采用模態化推理蒸餾方法。

?? 該模型基于 Qwen2架構,能夠在推理時明確區分思考過程和最終答案,提升了音頻處理能力。

?? 在多個基準測試中,Step-Audio-R1的表現超過了 Gemini2.5Pro,并與 Gemini3Pro 相當。