国产精品久久久久影院,不卡av免费观看,北条麻妃av毛片免费观看

StepFun AI 團隊近日推出了新的音頻大語言模型 Step-Audio-R1，該模型在生成推理時可以有效利用計算資源，解決了當前音頻 AI 模型在處理長推理鏈時準確性下降的問題。研究團隊指出，這一問題并非音頻模型固有的局限，而是由于訓練過程中采用了文本替代推理的方式。

目前大多數音頻模型在訓練時主要依賴于文本數據，導致它們的推理過程更像是閱讀文字，而非實際聆聽聲音。StepFun 團隊稱這一現象為 “文本替代推理”。為了應對這一問題，Step-Audio-R1要求模型在生成答案時必須基于音頻證據進行推理。這一做法通過一種稱為 “模態化推理蒸餾” 的訓練方法來實現，該方法特別選取并提煉出與音頻特征相關的推理軌跡。

在架構上，Step-Audio-R1基于 Qwen2音頻編碼器，對原始波形進行處理，并通過音頻適配器將輸出下采樣至12.5Hz。然后，Qwen2.532B 解碼器消耗音頻特征并生成文本。模型在生成答案時，始終會在特定標簽內生成明確的推理塊，這樣可以確保推理的結構和內容得以優化，同時不影響任務的準確性。

訓練過程中，模型經歷了監督冷啟動階段和強化學習階段，涉及文本和音頻任務的混合。在冷啟動階段，團隊使用了500萬例樣本，涵蓋了1億個文本標記和40億個音頻配對數據。在這一階段，模型學習如何生成對音頻和文本都有用的推理，并建立了基本的推理能力。

通過多輪 “模態化推理蒸餾”，研究團隊從音頻問題中提取出真實的聲學特征，并用強化學習進一步優化模型的推理能力。Step-Audio-R1在多個音頻理解與推理基準測試中表現出色，其綜合得分接近行業領先的 Gemini3Pro 模型。

論文：https://arxiv.org/pdf/2511.15848

劃重點:
?? StepFun AI 推出的 Step-Audio-R1解決了音頻推理中的準確性下降問題，采用模態化推理蒸餾方法。
?? 該模型基于 Qwen2架構，能夠在推理時明確區分思考過程和最終答案，提升了音頻處理能力。
?? 在多個基準測試中，Step-Audio-R1的表現超過了 Gemini2.5Pro，并與 Gemini3Pro 相當。