Cerebellum是基于Claude 3.5 Sonnet和Selenium WebDriver構建的瀏覽器AI智能助手,能理解任務意圖、執行網頁自動化任務,如數據抓取和網站自動化測試。Cerebellum將網頁瀏覽簡化為有向圖導航,用LLM分析頁面內容和交互元素,智能規劃行動路徑,根據網頁狀態和歷史操作動態調整策略。Cerebellum支持多瀏覽器,能精確模擬用戶行為,適用于復雜的自動化場景。
Cerebellum的主要功能圖形導航:將網頁瀏覽簡化為有向圖導航,每個網頁被視為一個節點,用戶操作(如點擊或輸入)作為節點間的邊。節點發現:基于LLM(大型語言模型)分析頁面內容,發現、識別新的網頁節點。行動決策:基于當前網頁狀態和歷史用戶操作,智能決策下一步行動。多瀏覽器支持:兼容Chrome、Firefox、Safari和Edge等多種瀏覽器。用戶行為模擬:精確模擬用戶行為,如點擊、輸入等,適用于復雜的自動化場景。動態策略調整:接受運行時指令,根據實時反饋動態調整瀏覽策略和操作。表單填寫:用用戶提供的JSON數據自動填寫網頁表單。Cerebellum的技術原理網頁模型化:將網頁瀏覽過程模型化為一個有向圖,每個網頁是一個節點,用戶操作是節點之間的連接邊。LLM集成:集成大型語言模型(LLM),如Claude 3.5 Sonnet,分析網頁內容和交互元素,識別和規劃新的節點。狀態分析:LLM根據當前網頁狀態和歷史操作數據決定下一步的最佳行動。動作執行與反饋:Cerebellum執行LLM規劃的操作,將操作后的新網頁狀態反饋給LLM,以便進行下一步的決策。目標導向:從起始網頁出發,目標是到達代表任務完成的目標節點。自動化流程:用戶設定目標,Cerebellum自動處理繁瑣的腳本錄制和執行,實現自動化任務。環境集成:與Selenium WebDriver緊密集成,基于Selenium的瀏覽器驅動能力實現跨瀏覽器的自動化操作。Cerebellum的項目地址GitHub倉庫:https://github.com/theredsix/cerebellumCerebellum的應用場景網站自動化測試:進行網頁的功能性測試,自動化測試腳本的執行,確保網站或Web應用的各個功能按預期工作。數據抓取與分析:自動化從網頁上抓取數據,用于市場研究、競爭對手分析或數據聚合服務。網頁內容管理:管理網站內容,如自動更新文章、發布博客、管理用戶評論等。電子商務:自動化處理訂單、庫存管理、價格比較和產品信息更新等任務。客戶服務自動化:基于自動化聊天機器人或客戶支持系統中的常見問題解答提升客戶服務效率。 
