商湯科技聯合南洋理工大學 S-Lab 發布行業首個原生多模態架構 NEO,并同步開源2B 與9B 兩款模型。新架構摒棄“視覺編碼器 + 投影器 + 語言模型”的傳統三段式方案,從注意力機制、位置編碼到語義映射全部重寫,官方稱在同等性能下數據需求僅為業界平均的1/10,首次實現“像素到 Token”的連續映射。

據商湯技術負責人介紹,NEO 通過原生圖塊嵌入層直接讀取像素,取消獨立圖像 Tokenizer;三維旋轉位置編碼(Native-RoPE)在同一向量空間內同時表達文本與視覺時空頻率;多頭注意力采用“視覺雙向 + 文本自回歸”混合計算,空間結構關聯得分提升24%。實測顯示,在0.6B-8B 參數區間內,NEO 在 ImageNet、COCO 與 Kinetics-400上取得 SOTA,邊緣設備推理延遲低于80毫秒。

GitHub 已公開模型權重與訓練腳本,商湯計劃明年第一季度開源3D 感知與視頻理解版本。業內人士認為,NEO 的“深層融合”路線有望結束多模態“拼積木”時代,為終端小模型提供新的性能基線。