手機、平板、電腦、電視,屏幕越來越多,操作越來越復(fù)雜,是不是讓你眼花繚亂?蘋果最近丟出一個王炸——Ferret-UI2,一個超強 UI 理解模型,號稱要統(tǒng)一江湖!

這可不是吹牛,F(xiàn)erret-UI2的目標是成為一個真正的六邊形戰(zhàn)士,能在各種平臺上理解用戶界面,不管是iPhone、Android、iPad、網(wǎng)頁還是AppleTV,它都能輕松拿下。

Ferret-UI2的一大亮點是它對多平臺的支持。與僅限于移動平臺的Ferret-UI不同,F(xiàn)erret-UI2能夠理解來自平板電腦、網(wǎng)頁和智能電視等各種設(shè)備的UI屏幕。這種多平臺支持使其能夠適應(yīng)當今多樣化的設(shè)備生態(tài)系統(tǒng),為用戶提供更廣泛的應(yīng)用場景。

為了提高UI感知能力,F(xiàn)erret-UI2引入了動態(tài)高分辨率圖像編碼技術(shù),并采用了一種名為“自適應(yīng)網(wǎng)格”的增強方法。通過這種方法,F(xiàn)erret-UI2能夠在UI屏幕截圖的原始分辨率下保持感知能力,從而更準確地識別視覺元素和它們之間的關(guān)系。

此外,F(xiàn)erret-UI2還利用高質(zhì)量的訓練數(shù)據(jù)來學習基本和高級任務(wù)。 對于基本任務(wù),F(xiàn)erret-UI2將簡單的引用和定位數(shù)據(jù)轉(zhuǎn)換為對話形式,使模型能夠?qū)Ω鞣NUI屏幕建立基本理解。 對于更側(cè)重于用戶體驗的高級任務(wù),F(xiàn)erret-UI2采用了**基于GPT-4o的“標記集視覺提示”**技術(shù)來生成訓練數(shù)據(jù),并用單步用戶中心交互取代了之前方法中簡單的點擊指令。

為了評估Ferret-UI2的性能,研究人員構(gòu)建了涵蓋五個平臺的45個基準測試,包括每個平臺的6個基本任務(wù)和3個高級任務(wù)。 此外,他們還使用了GUIDE和GUI-World等公開基準測試。 結(jié)果表明,F(xiàn)erret-UI2在所有測試的基準測試中都優(yōu)于Ferret-UI,特別是在高級任務(wù)上取得了顯著的進步,證明了其在處理跨平臺UI理解任務(wù)方面的多功能性。

消融研究進一步表明,F(xiàn)erret-UI2的架構(gòu)改進和數(shù)據(jù)集改進都對性能提升做出了貢獻,其中新數(shù)據(jù)集對更具挑戰(zhàn)性的任務(wù)的影響更為顯著。 此外,F(xiàn)erret-UI2在跨平臺遷移學習方面也表現(xiàn)出色,特別是在iPhone、iPad和Android平臺之間表現(xiàn)出良好的泛化能力。

模型地址:https://huggingface.co/jadechoghari/Ferret-UI-Llama8b

論文地址:https://arxiv.org/pdf/2410.18967