VideoChat是什么

VideoChat是開源的實時數字人對話系統,支持語音輸入和實時對話功能。用戶自定義數字人的形象和音色,無需訓練即可進行音色克隆,首包延遲可低至3秒,適用于直播、新聞播報和聊天助手等多種實時語音交互場景。系統支持支持GLM-4-Voice,提供ASR-LLM-TTS-THG和MLLM-THG兩種生成方式。VideoChat用Gradio框架構建交互式應用,支持流式視頻輸出,方便快速部署和構建。

VideoChat  開源的實時數字人對話系統,首包延遲低至3秒 第1張VideoChat的主要功能實時語音交互:支持用戶用語音與數字人進行實時對話。形象和音色自定義:用戶根據需要選擇或設計數字人的外觀和聲音,實現個性化交互。語音輸入和文本輸出:將用戶的語音輸入轉換為文本,再基于大語言模型生成回復文本。唇形同步:數字人在說話時,嘴唇動作與發出的聲音同步,提高真實感。流式視頻輸出:基于Gradio框架,支持流式視頻輸出,讓交互更加流暢。VideoChat的技術原理語音識別(ASR):用FunASR等工具將用戶的語音輸入轉換為文本。大語言模型(LLM):基于通義千問等模型根據輸入文本生成相應的回復文本。文本轉語音(TTS):基于GPT-SoVITS等工具將文本回復轉換為語音。說話人生成(THG):用MuseTalk等方案根據語音生成唇形同步的數字人視頻。流式輸出并行流水線:基于并行處理技術,邊推理邊播放,提高響應速度。Gradio框架:用Gradio 5實現流式視頻輸出,方便部署和構建交互式應用。VideoChat的項目地址GitHub倉庫:https://github.com/Henry-23/VideoChat在線體驗Demo:https://www.modelscope.cn/studios/AI-ModelScope/video_chatVideoChat的應用場景客戶服務:作為虛擬客服,提供24*7的咨詢服務,解答用戶問題,減少企業人力成本。在線教育:作為虛擬教師,提供語言學習、課程講解等服務,增加學習的互動性和趣味性。新聞播報:用在新聞行業,用數字人的形式播報新聞,提高新聞播報的效率和吸引力。直播行業:作為虛擬主播,進行產品介紹、直播帶貨等,增加直播的互動性和觀眾的觀看體驗。娛樂互動:在游戲、虛擬演唱會等娛樂領域,提供更加豐富的互動體驗。