国产视频第一区,精品影视av免费,久草在线中文最新视频

AndroidLab是什么

AndroidLab是用在訓練和系統評估Android自主代理的框架，集成文本和圖像模態操作環境，統一行動空間和可重現基準測試。AndroidLab支持大型語言模型和多模態模型，包含138個任務，覆蓋九個應用。基于AndroidLab，開發Android指令數據集，提升開源模型的成功率。框架縮小開源與閉源模型性能差距，推動開源解決方案發展，并在GitHub開源。

AndroidLab 清華和北大聯合推出系統化評估Android智能代理的框架第1張

AndroidLab的主要功能多模態操作環境：提供標準化的多模態操作環境，支持大型語言模型（LLMs）和多模態模型（LMMs）在相同的操作空間內進行交互。基準測試：設計一個包含138項任務的基準測試，覆蓋九個常見應用，任務類型包括操作任務和查詢任務，涉及真實世界的復雜交互場景。評估指標：引入任務完成率（SR）、子目標成功率（Sub-SR）、反向冗余率（RRR）和合理操作比率（ROR）等評估指標，精準評估代理的任務表現。數據集構建：創建Android Instruct數據集，結合自動化探索與人工標注，生成高質量的操作數據，提升開源模型在任務完成率和操作效率上的表現。模型訓練與優化：支持對開源和閉源模型進行訓練和優化，基于指令調優顯著縮小開源與閉源模型之間的性能差距。AndroidLab技術原理操作模式：XML模式：為文本輸入的LLMs設計，基于壓縮XML信息傳遞界面狀態，模型直接選擇元素執行操作。SoM模式：針對LMMs的設計，用Set-of-Mark方法，將屏幕截圖與標記信息結合，模型選擇帶有編號的標記元素進行操作。推理與操作框架：ReAct框架：基于逐步推理和操作輸出，模型輸出操作的同時展示中間推理過程。SeeAct框架：推理與操作分離，分兩輪交互進行，第一輪模型生成詳細的推理步驟，第二輪執行具體操作。任務設計與重現性：每個任務設計多個子目標，用XML樹結構匹配來驗證每個子目標的完成情況，確保結果準確性和操作的高效性。評估系統：基于任務完成的評估系統，直接從設備和屏幕狀態判斷，提供全面和精確的代理性能評估。數據集與模型訓練：基于自動化探索和人工標注構建數據集，訓練和微調模型，提升模型在多模態與文本輸入任務中的表現。AndroidLab的項目地址GitHub倉庫：https://github.com/THUDM/Android-LabarXiv技術論文：https://arxiv.org/pdf/2410.24024AndroidLab的應用場景自動化測試：用在移動應用的自動化測試，模擬用戶操作檢測應用的功能和性能。智能助理開發：開發理解和執行復雜用戶指令的智能助理，如語音助手和聊天機器人。人機交互研究：研究和改進人機交互方式，特別是在移動設備上，如何讓機器更好地理解和響應人類指令。人工智能研究：提供一個實驗平臺，研究和開發大型語言模型（LLMs）和多模態模型（LMMs）在實際應用中的表現。教育和培訓：作為教育工具，幫助學生和研究人員理解Android操作系統的工作原理和應用開發。

国产精品亚洲色图_成人av电影在线播放_人日人天天爽_国产精品久久久乱弄 _青青青视频在线_一区二区国产在线观看_三级无遮挡在线观看_国产激情视频一区二区三区欧美 _天天综合久久_91久久香蕉国产日韩欧美9色

AndroidLab 清華和北大聯合推出系統化評估Android智能代理的框架

黑五戰報：Rufus成交率飆100%，亞馬遜AI助手成假日季最大“轉化引擎”

Yann LeCun：深度學習三巨頭之一，圖靈獎獲得者

国产精品亚洲色图_成人av电影在线播放_人日人天天爽_国产精品久久久乱弄 _青青青视频在线_一区二区国产在线观看_三级无遮挡在线观看_国产激情视频一区二区三区欧美 _天天综合久久_91久久香蕉国产日韩欧美9色

AndroidLab 清華和北大聯合推出系統化評估Android智能代理的框架

黑五戰報：Rufus成交率飆100%，亞馬遜AI助手成假日季最大“轉化引擎”

Yann LeCun：深度學習三巨頭之一，圖靈獎獲得者

相關文章

黑五戰報：Rufus成交率飆100%，亞馬遜AI助手成假日季最大“轉化引擎”

Yann LeCun：深度學習三巨頭之一，圖靈獎獲得者