Ichigo是開源的多模態AI語音助手,采用混合模態模型,能實時處理語音和文本的交織序列。基于將語音直接量化為離散令牌,用統一的變換器架構同時處理語音和文本,實現跨模態的聯合推理和生成。基于此方法提高了處理速度,降低算力消耗,讓首令牌生成的延遲僅為111毫秒,遠低于現有模型,讓Ichigo能提供接近實時的語音交互體驗。
Ichigod主要功能實時語音處理:Ichigo實時處理語音輸入,將其轉換為離散令牌,實現快速響應。跨模態交互:支持語音和文本的交織序列處理,實現真正的跨模態交互。多輪對話管理:在多輪對話中保持上下文理解,提供準確和個性化的回答。模糊輸入處理:面對不清晰的語音輸入或背景噪音,請求用戶重復,保證交互的準確性。多語言支持:得益于多語言語音識別數據集的預訓練,Ichigo支持多種語言的處理。Ichigo的技術原理混合模態早期融合:Ichigo基于早期融合技術,將語音和文本數據在輸入階段合并處理,提高效率。統一的變換器架構:用統一的變換器架構處理量化后的語音和文本令牌,支持跨模態學習和特征共享。語音到令牌的轉換:用WhisperVQ技術,將連續的語音信號轉換為離散的令牌,以便模型處理。低延遲的實時性能:首令牌生成的平均延遲僅為111毫秒,提供出色的實時處理能力。多語言預訓練:在預訓練階段使用多語言語音識別數據集,讓模型具備處理多種語言的能力。Ichigo的項目地址GitHub倉庫:https://github.com/homebrewltd/ichigoHuggingFace模型庫:https://huggingface.co/collections/homebrewltd/ichigo-66ffc7484ef31ec5596ef6d0arXiv技術論文:https://arxiv.org/pdf/2410.15316Ichigo的應用場景智能家居控制:Ichigo能集成到智能家居系統中,用語音命令控制家中的智能設備,如燈光、溫度、安全系統等。虛擬個人助理:作為個人助理,Ichigo幫助用戶管理日程、提醒重要事件、查詢信息、發送消息等。客戶服務:在客戶服務領域,Ichigo作為聊天機器人,提供24*7的自動客戶支持,處理常見問題和請求。教育和培訓:Ichigo作為教育輔助工具,提供語言學習支持、課程內容講解和互動式學習體驗。健康咨詢:在醫療健康領域,Ichigo提供基本的健康咨詢服務,如癥狀檢查、健康建議和緊急情況的初步響應。 
