GTA是什么

GTA(a benchmark for General Tool Agents)是上海交通大學和上海AI實驗室共同推出的基準測試,評估大型語言模型(LLMs)在真實世界場景中調用工具的能力。GTA基于提供真實的用戶問題、真實部署的工具和多模態輸入輸出,建立一個全面、細粒度的評估框架,有效衡量LLMs在復雜場景下的工具使用能力。GTA包含229個人類設計的問題,覆蓋感知、操作、邏輯和創造力等多個類別,要求模型推理合適的工具,規劃操作步驟,解決現實世界中的復雜任務。

GTA  上海AI Lab聯合交大推出評估通用工具智能體的基準測試 第1張GTA的主要功能真實用戶查詢:包含229個人類編寫的問題,問題具有簡單的現實世界目標,但解決步驟和所需工具是隱含的,要求LLM基于推理選擇合適的工具、規劃操作步驟。真實部署的工具:GTA提供一個評估平臺,部署涵蓋感知、操作、邏輯和創造力四大類別的14種工具,評估代理的實際任務執行性能。多模態輸入輸出:GTA引入空間場景、網頁截圖、表格、代碼片段、手寫/打印材料等多模態輸入,要求模型處理豐富的上下文信息,給出文本或圖像輸出。細粒度評估:GTA設計細粒度的評估指標,包括指令遵循準確率(InstAcc)、工具選擇準確率(ToolAcc)、參數預測準確率(ArgAcc)和答案總結準確率(SummAcc),及最終答案準確率(AnsAcc)。模型評測:GTA在逐步模式(step-by-step mode)和端到端模式(end-to-end mode)下評估語言模型,提供對模型工具使用能力的全面評估。GTA的技術原理數據集構建:GTA的數據集構建包括問題構建和工具鏈構建兩個步驟。問題由專家設計樣例和標注文檔,由標注人員基于樣例設計更多的問題。工具鏈由標注人員手動調用部署好的工具構建,確保每個問題都能用提供的工具解決。工具調用:GTA用ReAct風格的提示模板,讓LLM用特定的格式調用工具,處理工具返回的結果。模板支持LLM進行推理和規劃,決定何時及如何調用工具。多模態處理:GTA要求LLM處理和理解多模態輸入,包括圖像、文本等,要求模型具備跨模態的理解和推理能力。細粒度評估指標:GTA設計的評估指標覆蓋工具調用的整個過程,從LLM的工具調用過程到執行結果,提供對模型性能的全面評估。模型比較:基于比較不同模型在GTA上的表現,揭示現有模型在處理真實世界問題時面臨的工具使用瓶頸,為未來的通用工具智能體提供改進方向。GTA的項目地址項目官網:open-compass.github.io/GTAGitHub倉庫:https://github.com/open-compass/GTAHuggingFace模型庫:https://huggingface.co/datasets/Jize1/GTAarXiv技術論文:https://arxiv.org/pdf/2407.08713GTA的應用場景智能助理開發:GTA評估和訓練智能助理,讓其更好地理解和執行復雜的用戶請求,涉及多步驟和多種工具的調用。多模態交互:在需要處理圖像、文本和其他多媒體內容的場景中,GTA幫助模型學習如何結合多種輸入類型解決問題。自動化客戶服務:GTA用在開發自動解決客戶問題的系統,系統需要調用不同的工具和資源提供準確的答案和解決方案。教育和培訓:GTA作為教育工具,幫助學生理解如何設計和實現復雜的任務,任務需要多步驟推理和工具使用。研究和開發:研究人員用GTA測試和比較不同的LLMs,探索工具使用能力的新方法,推動AI技術的發展。