MobA(Mobile Agent)是上海交通大學(xué)團(tuán)隊(duì)推出的新型移動智能體,基于多模態(tài)大型語言模型(MLLMs)提升移動設(shè)備的自動化任務(wù)執(zhí)行能力。MobA采用兩級架構(gòu):高級全局智能體(GA)負(fù)責(zé)理解用戶指令、管理歷史記錄和規(guī)劃任務(wù);低級局部智能體(LA)根據(jù)GA的規(guī)劃執(zhí)行具體動作。系統(tǒng)內(nèi)建的反思模塊使得MobA能高效處理復(fù)雜任務(wù),包括之前未曾遇到的。
MobA的主要功能用戶指令理解:理解用戶的自然語言指令,轉(zhuǎn)化為可執(zhí)行的任務(wù)。任務(wù)規(guī)劃與分解:高級全局智能體(GA)負(fù)責(zé)將復(fù)雜任務(wù)分解為更小、更易于管理的子任務(wù)。動作執(zhí)行:低級局部智能體(LA)根據(jù)GA的指導(dǎo),執(zhí)行具體的子任務(wù)和動作。歷史記憶跟蹤:GA跟蹤歷史記憶,在規(guī)劃新任務(wù)時考慮過去的經(jīng)驗(yàn)和信息。反思與自我優(yōu)化:集成的反思模塊支持MobA在執(zhí)行任務(wù)后進(jìn)行自我評估,優(yōu)化未來的任務(wù)執(zhí)行。跨應(yīng)用操作:處理涉及多個應(yīng)用程序的復(fù)雜任務(wù),實(shí)現(xiàn)跨應(yīng)用的自動化操作。MobA的技術(shù)原理多模態(tài)大型語言模型(MLLMs):基于MLLMs,模型能處理和理解多種類型的數(shù)據(jù),如文本、圖像等。兩級智能體架構(gòu):系統(tǒng)由高級全局智能體(GA)和低級局部智能體(LA)組成,分別負(fù)責(zé)任務(wù)規(guī)劃和動作執(zhí)行。任務(wù)規(guī)劃模塊:GA中的規(guī)劃模塊負(fù)責(zé)將用戶指令分解為一系列子任務(wù),并評估任務(wù)的可行性。動作模塊:LA中的動作模塊負(fù)責(zé)識別任務(wù)是否可以一步完成,并提供相應(yīng)的動作指令。記憶模塊:系統(tǒng)包含記憶模塊,用在存儲和更新任務(wù)執(zhí)行痕跡、用戶偏好和應(yīng)用信息。MobA的項(xiàng)目地址arXiv技術(shù)論文:https://arxiv.org/pdf/2410.13757MobA的應(yīng)用場景個人助理:在日常生活中,作為個人助理,幫助用戶管理日程、設(shè)置提醒、查詢信息等。智能家居控制:與智能家居設(shè)備集成,基于語音或文本指令控制家中的智能設(shè)備,如燈光、溫度調(diào)節(jié)、安全監(jiān)控等。移動設(shè)備自動化:在移動設(shè)備上,自動執(zhí)行復(fù)雜的操作流程,如自動填寫表單、管理郵件、優(yōu)化應(yīng)用設(shè)置等。老年人和殘疾人士輔助:為老年人和殘疾人士提供輔助,簡化使用智能設(shè)備的過程,提高生活質(zhì)量。教育和學(xué)習(xí):在教育領(lǐng)域,幫助學(xué)生獲取信息、管理學(xué)習(xí)資料、甚至輔助完成作業(yè)。 
