AndroidLab是用在訓練和系統評估Android自主代理的框架,集成文本和圖像模態操作環境,統一行動空間和可重現基準測試。AndroidLab支持大型語言模型和多模態模型,包含138個任務,覆蓋九個應用。基于AndroidLab,開發Android指令數據集,提升開源模型的成功率。框架縮小開源與閉源模型性能差距,推動開源解決方案發展,并在GitHub開源。
AndroidLab的主要功能多模態操作環境:提供標準化的多模態操作環境,支持大型語言模型(LLMs)和多模態模型(LMMs)在相同的操作空間內進行交互。基準測試:設計一個包含138項任務的基準測試,覆蓋九個常見應用,任務類型包括操作任務和查詢任務,涉及真實世界的復雜交互場景。評估指標:引入任務完成率(SR)、子目標成功率(Sub-SR)、反向冗余率(RRR)和合理操作比率(ROR)等評估指標,精準評估代理的任務表現。數據集構建:創建Android Instruct數據集,結合自動化探索與人工標注,生成高質量的操作數據,提升開源模型在任務完成率和操作效率上的表現。模型訓練與優化:支持對開源和閉源模型進行訓練和優化,基于指令調優顯著縮小開源與閉源模型之間的性能差距。AndroidLab技術原理操作模式:XML模式:為文本輸入的LLMs設計,基于壓縮XML信息傳遞界面狀態,模型直接選擇元素執行操作。SoM模式:針對LMMs的設計,用Set-of-Mark方法,將屏幕截圖與標記信息結合,模型選擇帶有編號的標記元素進行操作。推理與操作框架:ReAct框架:基于逐步推理和操作輸出,模型輸出操作的同時展示中間推理過程。SeeAct框架:推理與操作分離,分兩輪交互進行,第一輪模型生成詳細的推理步驟,第二輪執行具體操作。任務設計與重現性:每個任務設計多個子目標,用XML樹結構匹配來驗證每個子目標的完成情況,確保結果準確性和操作的高效性。評估系統:基于任務完成的評估系統,直接從設備和屏幕狀態判斷,提供全面和精確的代理性能評估。數據集與模型訓練:基于自動化探索和人工標注構建數據集,訓練和微調模型,提升模型在多模態與文本輸入任務中的表現。AndroidLab的項目地址GitHub倉庫:https://github.com/THUDM/Android-LabarXiv技術論文:https://arxiv.org/pdf/2410.24024AndroidLab的應用場景自動化測試:用在移動應用的自動化測試,模擬用戶操作檢測應用的功能和性能。智能助理開發:開發理解和執行復雜用戶指令的智能助理,如語音助手和聊天機器人。人機交互研究:研究和改進人機交互方式,特別是在移動設備上,如何讓機器更好地理解和響應人類指令。人工智能研究:提供一個實驗平臺,研究和開發大型語言模型(LLMs)和多模態模型(LMMs)在實際應用中的表現。教育和培訓:作為教育工具,幫助學生和研究人員理解Android操作系統的工作原理和應用開發。 
