蘋(píng)果公司近日發(fā)布了新一代人工智能系統(tǒng)Ferret-UI2。這款跨平臺(tái)AI助手在UI元素識(shí)別方面取得重大突破,測(cè)試得分達(dá)89.73,大幅領(lǐng)先GPT-4V的77.73分,展現(xiàn)出卓越的性能表現(xiàn)。

這套系統(tǒng)最大的特點(diǎn)在于其智能理解用戶(hù)意圖的能力。不同于傳統(tǒng)基于坐標(biāo)點(diǎn)擊的操作方式,F(xiàn)erret-UI2能夠根據(jù)用戶(hù)的自然語(yǔ)言指令,自動(dòng)定位并執(zhí)行相應(yīng)操作。研究團(tuán)隊(duì)通過(guò)借助GPT-4V的視覺(jué)能力生成訓(xùn)練數(shù)據(jù),使系統(tǒng)能夠更好地理解界面元素之間的空間關(guān)系。

在技術(shù)架構(gòu)上,F(xiàn)erret-UI2采用了自適應(yīng)設(shè)計(jì),可在iPhone、iPad、安卓設(shè)備、網(wǎng)頁(yè)瀏覽器和Apple TV等多個(gè)平臺(tái)上準(zhǔn)確識(shí)別UI元素。系統(tǒng)還配備了智能算法,能夠根據(jù)不同平臺(tái)自動(dòng)調(diào)整圖像分辨率和處理需求,在保留信息完整性的同時(shí)確保本地運(yùn)算效率。

實(shí)際測(cè)試數(shù)據(jù)顯示,該系統(tǒng)在各平臺(tái)上表現(xiàn)優(yōu)異:iPhone端運(yùn)行流暢,iPad端準(zhǔn)確率達(dá)68%,安卓設(shè)備上的成功率更是達(dá)到71%。不過(guò)在跨設(shè)備場(chǎng)景下,比如在移動(dòng)設(shè)備與電視或網(wǎng)頁(yè)界面之間切換時(shí),仍存在一定挑戰(zhàn),這主要源于不同平臺(tái)間界面布局的差異。

值得注意的是,UI交互AI領(lǐng)域競(jìng)爭(zhēng)日益激烈。Anthropic最近升級(jí)了Claude3.5Sonnet的UI交互能力,微軟則開(kāi)源了OmniParser工具,致力于將屏幕內(nèi)容轉(zhuǎn)化為結(jié)構(gòu)化數(shù)據(jù)。

蘋(píng)果同時(shí)推出的CAMPHOR框架,通過(guò)專(zhuān)業(yè)AI代理和主控推理代理的配合,進(jìn)一步增強(qiáng)了系統(tǒng)處理復(fù)雜任務(wù)的能力。這意味著未來(lái)Siri等語(yǔ)音助手將能更智能地完成諸如餐廳預(yù)訂等復(fù)雜任務(wù),無(wú)需用戶(hù)手動(dòng)操作界面。

這項(xiàng)技術(shù)的突破不僅提升了跨設(shè)備操作的智能化水平,也為下一代人機(jī)交互描繪了清晰的發(fā)展藍(lán)圖。隨著技術(shù)的持續(xù)演進(jìn),更智能、更自然的人機(jī)交互體驗(yàn)已經(jīng)觸手可及。