Gummy是什么

Gummy是通義實驗室在2024年云棲大會上推出的端到端語音翻譯大模型。模型能實時流式生成語音識別與翻譯結果,支持包括中文、英語、粵語、日語、韓語、法語、德語、俄語、意大利語、西班牙語等十余種語言的語音輸入,將其翻譯成目標語言。Gummy模型通過端到端的方式,減少翻譯延遲,提高翻譯質量,在多個測試集上取得SOTA(State of the Art)的結果。Gummy支持多語言混翻、術語干預與領域提示等商業化落地的能力,能在跨國會議等場景中無需指定源語種,流暢地將各國語言翻譯至目標語種。

Gummy  通義推出的端到端語音翻譯大模型,能實時流式生成結果 第1張Gummy的主要功能多語言支持:Gummy能處理包括中文、英語、粵語、日語、韓語、法語、德語、俄語、意大利語、西班牙語等十余種語言的語音輸入,實時翻譯成目標語言。端到端翻譯:與傳統的級聯系統不同,Gummy采用端到端的設計,直接將語音翻譯成目標語言,無需依賴中間的文本階段。低延遲翻譯:Gummy的翻譯延遲被降低到0.5秒以內,比人類專家的同傳延時還要快。高質量翻譯:在多個業界公認的開源測試集上,Gummy取得SOTA(State of the Art)的翻譯質量結果。流式翻譯:Gummy支持隨說隨翻,即邊聽邊翻譯,適合實時交流的場景。Gummy的技術原理端到端設計:Gummy模型通過端到端架構,將源語言的語音輸入映射到目標語言的文本輸出,簡化開發流程并提高了系統性能。深度神經網絡:基于深度學習技術,尤其是深度神經網絡,學習語音到文本的復雜映射關系。實時流式處理:支持實時語音識別和翻譯,實現邊聽邊翻譯。wait & predict機制:模型內部采用特殊機制,自動判斷翻譯時機,優化翻譯質量和延遲。Gummy的項目地址項目官網:tongyi.aliyun.com,目前語音翻譯大模型Gummy部分功能已上線通義APP可下載體驗。Gummy的應用場景實時語音翻譯:Gummy模型能實時翻譯會議中的發言,為國際會議、多語言談判等提供同聲傳譯服務。教育和培訓:在教育領域,Gummy輔助語言學習,提供多語言教學內容的實時翻譯,幫助學生和教師跨越語言障礙。旅游和導航:為旅行者提供實時語音翻譯,幫助他們與不同語言的當地人交流,或在導航時提供多語言指引。客戶服務:在客戶服務領域,Gummy作為多語言客服助手,提供快速準確的語言支持,提升客戶滿意度。醫療咨詢:在醫療領域,Gummy提供多語言的醫療咨詢翻譯服務,幫助醫生和患者之間的溝通。