ShowUI是新加坡國立大學Show Lab和微軟共同推出的視覺-語言-行動模型,能提升圖形用戶界面(GUI)助手的工作效率。模型基于UI引導的視覺令牌選擇減少計算成本,用交錯視覺-語言-行動流統一GUI任務中的多樣化需求,并管理視覺-行動歷史增強訓練效率。ShowUI用小規模但高質量的指令跟隨數據集,用256K數據實現75.1%的零樣本截圖定位準確率,訓練速度提升1.4倍,展現出在GUI視覺代理領域的潛力。
ShowUI的主要功能UI引導的視覺令牌選擇:將屏幕截圖構建為UI連接圖,自適應地識別冗余關系,在自注意力模塊中作為選擇令牌的標準,減少計算成本。交錯視覺-語言-行動流:靈活地統一GUI任務中的多樣化需求,有效管理視覺-行動歷史,提高訓練效率。小規模高質量GUI指令跟隨數據集:基于精心策劃數據和采用重采樣策略解決數據類型不平衡的問題,提高模型的準確性和效率。零樣本截圖定位:在沒有額外訓練的情況下,直接對屏幕截圖進行理解和操作的能力。GUI自動化:自動化執行GUI任務,如點擊、輸入等,提高人機交互效率。ShowUI的技術原理UI引導的視覺令牌選擇:將屏幕截圖分割成規則的補丁(patches),每個補丁作為一個節點。識別具有相同RGB值的相鄰補丁,構建UI連接圖,將視覺冗余區域組合起來。在自注意力模塊中,基于UI連接圖選擇性地處理視覺令牌,減少計算量。交錯視覺-語言-行動流:結構化GUI動作,以JSON格式表示,統一不同設備上的動作。基于交替處理視覺、語言和行動數據,管理復雜的交互歷史。在訓練中,用多輪對話方式,提高數據利用效率。數據策劃和重采樣策略:精心策劃和選擇高質量的訓練數據,而不是簡單地聚合所有可用數據源。基于重采樣策略,解決不同設備和任務類型之間的數據不平衡問題。高效處理高分辨率UI截圖:針對高分辨率UI截圖,優化模型以有效處理長令牌序列,減少計算成本。模型架構:基于Qwen2-VL-2B模型,整合視覺編碼器和語言模型,處理視覺和文本數據。基于特定的數據食譜和訓練策略,提高模型在GUI任務中的性能。ShowUI的項目地址GitHub倉庫:https://github.com/showlab/ShowUIHuggingFace模型庫:https://huggingface.co/datasets/showlab/ShowUI-desktop-8KarXiv技術論文:https://arxiv.org/pdf/2411.17465在線體驗Demo:https://huggingface.co/spaces/showlab/ShowUIShowUI的應用場景網頁自動化:自動執行網頁上的點擊、輸入、滾動等操作,用在自動化測試、數據抓取或模擬用戶行為。移動應用測試:在移動應用中自動化執行各種用戶交互,如滑動、點擊、填寫表單等,進行應用功能測試。桌面軟件自動化:自動化桌面軟件中的重復性任務,如文件管理、數據輸入、設置調整等。虛擬助手:作為虛擬助手的一部分,根據用戶的自然語言指令執行特定的GUI操作。游戲自動化:在支持自動化腳本的游戲中,自動執行角色移動、物品拾取、戰斗等操作。 
