竹菊久久久久久久,国产探花在线观看,免费黄色在线网站

手機、平板、電腦、電視，屏幕越來越多，操作越來越復(fù)雜，是不是讓你眼花繚亂?蘋果最近丟出一個王炸——Ferret-UI2，一個超強 UI 理解模型，號稱要統(tǒng)一江湖!

這可不是吹牛，F(xiàn)erret-UI2的目標是成為一個真正的六邊形戰(zhàn)士，能在各種平臺上理解用戶界面，不管是iPhone、Android、iPad、網(wǎng)頁還是AppleTV，它都能輕松拿下。

Ferret-UI2的一大亮點是它對多平臺的支持。與僅限于移動平臺的Ferret-UI不同，F(xiàn)erret-UI2能夠理解來自平板電腦、網(wǎng)頁和智能電視等各種設(shè)備的UI屏幕。這種多平臺支持使其能夠適應(yīng)當今多樣化的設(shè)備生態(tài)系統(tǒng)，為用戶提供更廣泛的應(yīng)用場景。

為了提高UI感知能力，F(xiàn)erret-UI2引入了動態(tài)高分辨率圖像編碼技術(shù)，并采用了一種名為“自適應(yīng)網(wǎng)格”的增強方法。通過這種方法，F(xiàn)erret-UI2能夠在UI屏幕截圖的原始分辨率下保持感知能力，從而更準確地識別視覺元素和它們之間的關(guān)系。

此外，F(xiàn)erret-UI2還利用高質(zhì)量的訓練數(shù)據(jù)來學習基本和高級任務(wù)。對于基本任務(wù)，F(xiàn)erret-UI2將簡單的引用和定位數(shù)據(jù)轉(zhuǎn)換為對話形式，使模型能夠?qū)Ω鞣NUI屏幕建立基本理解。對于更側(cè)重于用戶體驗的高級任務(wù)，F(xiàn)erret-UI2采用了**基于GPT-4o的“標記集視覺提示”**技術(shù)來生成訓練數(shù)據(jù)，并用單步用戶中心交互取代了之前方法中簡單的點擊指令。

為了評估Ferret-UI2的性能，研究人員構(gòu)建了涵蓋五個平臺的45個基準測試，包括每個平臺的6個基本任務(wù)和3個高級任務(wù)。此外，他們還使用了GUIDE和GUI-World等公開基準測試。結(jié)果表明，F(xiàn)erret-UI2在所有測試的基準測試中都優(yōu)于Ferret-UI，特別是在高級任務(wù)上取得了顯著的進步，證明了其在處理跨平臺UI理解任務(wù)方面的多功能性。

消融研究進一步表明，F(xiàn)erret-UI2的架構(gòu)改進和數(shù)據(jù)集改進都對性能提升做出了貢獻，其中新數(shù)據(jù)集對更具挑戰(zhàn)性的任務(wù)的影響更為顯著。此外，F(xiàn)erret-UI2在跨平臺遷移學習方面也表現(xiàn)出色，特別是在iPhone、iPad和Android平臺之間表現(xiàn)出良好的泛化能力。

模型地址：https://huggingface.co/jadechoghari/Ferret-UI-Llama8b

論文地址：https://arxiv.org/pdf/2410.18967