Ferret-UI 2是蘋果公司推出的多模態(tài)大型語言模型,用在理解和交互移動用戶界面。Ferret-UI 2能識別和理解各種移動設(shè)備屏幕上的UI元素,執(zhí)行復(fù)雜的用戶指令,實時觀察用戶在移動設(shè)備屏幕上的操作,隨時準備提供幫助和執(zhí)行任務(wù)。Ferret-UI 2相較于早期版本進行了大幅改進和更新。基于高分辨率圖像編碼和先進的數(shù)據(jù)訓(xùn)練方法,提升UI元素的識別精度和交互能力,用戶能更自然、高效地與智能設(shè)備互動。
Ferret-UI 2的主要功能多平臺支持:Ferret-UI 2能處理包括iPhone、Android、iPad、Webpage和AppleTV在內(nèi)的多種平臺的用戶界面。高分辨率圖像感知:基于自適應(yīng)縮放技術(shù),F(xiàn)erret-UI 2能在保持原始UI截圖分辨率的同時,實現(xiàn)更準確的視覺元素識別。高級任務(wù)訓(xùn)練數(shù)據(jù)生成:基于GPT-4o和set-of-mark視覺提示,F(xiàn)erret-UI 2生成用于復(fù)雜任務(wù)的訓(xùn)練數(shù)據(jù),提升模型對UI元素空間關(guān)系的理解。用戶中心交互:Ferret-UI 2能理解、執(zhí)行用戶為中心的交互任務(wù),如確認提交、點擊按鈕等,不僅僅是機械點擊。跨平臺遷移能力:Ferret-UI 2展示了強大的跨平臺轉(zhuǎn)移能力,能在不同的平臺之間遷移和適應(yīng)。Ferret-UI 2的技術(shù)原理多模態(tài)大型語言模型(MLLM):結(jié)合視覺感知和語言處理的能力,理解和生成對UI的復(fù)雜交互。自適應(yīng)N網(wǎng)格機制:基于算法確定最優(yōu)的網(wǎng)格大小,用最小的分辨率失真和像素變化編碼UI截圖的每個部分。動態(tài)高分辨率圖像編碼:用CLIP圖像編碼器提取全局和局部特征,將特征送入大型語言模型(LLM)。 視覺采樣器:根據(jù)用戶指令識別、選擇相關(guān)的UI區(qū)域,輸出對UI元素的感知或交互描述。 set-of-mark(SoM)視覺提示:在生成訓(xùn)練數(shù)據(jù)時,用SoM提示增強模型對UI元素空間關(guān)系的理解,特別是在多輪感知和交互問答任務(wù)中。端到端訓(xùn)練:模型通過端到端的訓(xùn)練過程,從原始數(shù)據(jù)注釋中學(xué)習(xí),生成高質(zhì)量的訓(xùn)練數(shù)據(jù)并優(yōu)化模型性能。Ferret-UI 2的項目地址arXiv技術(shù)論文:https://arxiv.org/pdf/2410.18967Ferret-UI 2的應(yīng)用場景智能手機和平板電腦:Ferret-UI 2能理解、執(zhí)行用戶在iOS和Android設(shè)備上的各種指令,如導(dǎo)航應(yīng)用程序、發(fā)送消息、設(shè)置提醒等。網(wǎng)絡(luò)瀏覽:在網(wǎng)頁瀏覽中,幫助用戶更有效地與網(wǎng)頁元素交互,比如點擊按鈕、填寫表單、導(dǎo)航鏈接等。智能電視:對于Apple TV等智能電視平臺,提供語音控制和其他交互方式,增強用戶體驗。多任務(wù)環(huán)境:在需要同時處理多個應(yīng)用程序或窗口的場景中,幫助用戶更高效地管理和切換不同的任務(wù)。輔助技術(shù):集成到輔助技術(shù)中,幫助殘障人士通過語音命令或其他輸入方式與設(shè)備交互。 
