近日,北京大學等科研團隊宣布發布了一款名為 LLaVA-o1的多模態開源模型,據稱這是首個能夠進行自發、系統推理的視覺語言模型,堪比 GPT-o1。

該模型在六個具有挑戰性的多模態基準測試中表現優異,其11B 參數的版本超越了其他競爭者,如 Gemini-1.5-pro、GPT-4o-mini 和 Llama-3.2-90B-Vision-Instruct。

LLaVA-o1基于 Llama-3.2-Vision 模型,采用了 “慢思考” 推理機制,能夠自主進行更加復雜的推理過程,超越了傳統的思維鏈提示方法。

在多模態推理基準測試中,LLaVA-o1的表現超出了其基礎模型8.9%。該模型的獨特之處在于其推理過程被分為四個階段:總結、視覺解釋、邏輯推理和結論生成。在傳統模型中,推理過程往往比較簡單,容易導致錯誤答案,而 LLaVA-o1通過結構化的多步驟推理,確保了更為精準的輸出。

例如,在解決 “減去所有的小亮球和紫色物體,剩下多少個物體?” 的問題時,LLaVA-o1會首先總結問題,接著從圖像中提取信息,然后進行逐步推理,最終給出答案。這種分階段的方法提升了模型的系統推理能力,使其在處理復雜問題時更為高效。

值得一提的是,LLaVA-o1在推理過程中引入了階段級光束搜索方法。這種方法允許模型在每個推理階段生成多個候選答案,并選擇最佳的答案繼續進行下一階段的推理,從而顯著提高了整體推理質量。通過監督微調和合理的訓練數據,LLaVA-o1在與更大或閉源模型的比較中表現出色。

北大團隊的研究成果不僅推動了多模態 AI 的發展,也為未來的視覺語言理解模型提供了新的思路和方法。團隊表示,LLaVA-o1的代碼、預訓練權重和數據集都將全面開源,期待更多研究者和開發者能夠共同探索和應用這一創新模型。

論文:https://arxiv.org/abs/2411.10440

GitHub:https://github.com/PKU-YuanGroup/LLaVA-o1

劃重點:

?? LLaVA-o1是北京大學等團隊發布的全新多模態推理模型,具備 “慢思考” 推理能力。

?? 該模型在多模態推理基準測試中性能超越基礎模型8.9%。

?? LLaVA-o1通過結構化的多步驟推理,確保準確性,并將于近期開源。