Fara-7B是什么

Fara-7B 是微軟開源的專注于計算機使用的代理型小語言模型(SLM)。模型通過視覺感知網頁,操作鼠標、鍵盤等界面元素來幫助用戶完成任務,如填寫表單、搜索信息或預訂行程。模型僅有70億參數,能在其尺寸類別中達到頂尖性能,且能直接在設備上運行,降低延遲并提升隱私保護。Fara-7B 采用合成數據訓練,具備高效的任務執行能力,同時注重安全性。模型目前作為實驗性版本發布,旨在邀請社區探索和反饋,推動技術進步。

Fara-7B  微軟開源的小型計算機Agentic模型 第1張Fara-7B的主要功能自動化任務執行:通過操作鼠標、鍵盤等界面元素,幫助用戶完成各種計算機任務,如填寫表單、搜索信息、預訂旅行、管理賬戶等。視覺感知與交互:模型能直接感知網頁內容,通過預測坐標進行點擊、滾動、輸入等操作,完全依賴屏幕視覺信息,無需額外的輔助信息(如無障礙樹)。用戶交互與控制:在執行任務時,Fara-7B 會在關鍵節點(如涉及用戶隱私或重要決策時)暫停,等待用戶確認或輸入,確保用戶對任務的完全控制。隱私保護與安全性:所有操作均在本地設備上完成,用戶數據不會外傳,同時通過日志記錄和沙盒環境運行,確保隱私和安全。高效任務執行:通過優化的模型架構和訓練方法,Fara-7B 能用較少的步驟完成任務,相比其他同類模型效率更高,成本更低。Fara-7B的技術原理基于視覺的交互:模型通過屏幕截圖感知網頁內容,直接模擬人類用戶與計算機的交互方式,無需依賴網頁的內部結構(如 DOM 樹或無障礙樹)。合成數據生成:為解決高質量訓練數據不足的問題,微軟開發了合成數據生成管道。管道從公開網頁和任務提示中生成大規模的多步驟任務數據,避免人工標注的高昂成本。多智能體系統訓練:在訓練階段,Fara-7B 使用多智能體系統解決合成任務,生成用于監督微調的演示數據。智能體包括任務規劃者、網頁操作者和用戶模擬器等,通過協同工作完成任務。單模型蒸餾:將多智能體系統的復雜性蒸餾到一個單一模型中,使 Fara-7B 能獨立運行,簡化部署和使用過程。強化安全機制:模型在訓練中加入安全數據,使其能拒絕有害任務。同時,所有操作均記錄可審計,確保用戶對模型行為的完全掌控。Fara-7B的項目地址項目官網:https://www.microsoft.com/en-us/research/blog/fara-7b-an-efficient-agentic-model-for-computer-use/GitHub倉庫:https://github.com/microsoft/faraHuggingFace模型庫:https://huggingface.co/microsoft/Fara-7B技術論文:https://www.microsoft.com/en-us/research/wp-content/uploads/2025/11/Fara-7B-An-Efficient-Agentic-Model-for-Computer-Use.pdfFara-7B的應用場景辦公自動化:Fara-7B 能自動處理文檔、撰寫郵件、錄入數據,顯著提升辦公效率。信息檢索與整理:模型能快速搜索網絡信息并整理匯總,幫助用戶高效獲取所需資料。電子商務:Fara-7B 能自動搜索商品、比較價格并協助下單,優化購物體驗。旅行規劃:模型能智能安排行程、預訂機票酒店,簡化旅行準備過程。在線學習:Fara-7B 能自動搜索課程、整理學習資料,助力用戶高效學習。