阿里千問視覺模型在第三方空間推理榜單SpatialBench奪得前兩名:Qwen3-VL13.5分、Qwen2.5-VL12.9分,大幅領(lǐng)先Gemini3.0Pro Preview(9.6分)與GPT-5.1(7.5分),距離人類基線80分再近一步。

榜單特點

SpatialBench專注2D/3D空間、結(jié)構(gòu)、路徑推理,含電路分析、CAD工程、分子生物學(xué)等復(fù)雜任務(wù),被視為“具身智能試金石”。

模型亮點

-3D檢測升級:Qwen3-VL新增旋轉(zhuǎn)框輸出與深度估計頭,遮擋場景AP↑18%,可判斷物體方位、視角變化

- 視覺編程:輸入草圖或10秒短視頻即可生成可運行Python+OpenCV代碼,實現(xiàn)“所見即所得”

- 規(guī)模多樣:提供2B/4B/8B/32B密集模型及30B-A3B、235B-A22B MoE版本,推理版在32項核心能力測試中平均超越Gemini2.5-Pro6.4分

開源節(jié)奏

Qwen2.5-VL已全量開源;Qwen3-VL預(yù)計2025年Q2釋放權(quán)重與工具鏈,同步上線千問App免費體驗。

落地進(jìn)展

阿里云透露,Qwen3-VL已在物流機(jī)器人、AR裝配、智慧港口等場景POC,空間定位誤差<2cm,2026年將推出“視覺-動作”端到端模型,為機(jī)器人提供實時視覺伺服能力。