Teuken-7B,一款擁有 70 億個參數的語言模型,現已在 Hugging Face 上推出,支持所有 24 種歐盟官方語言。該模型由歐盟 OpenGPT-X 研究項目開發,并可作為開源項目供用戶使用。與大多數以英語為核心的 AI 語言模型不同,Teuken-7B 是從零開始構建的,約一半的訓練數據來源于非英語的歐洲語言。
圖源備注:圖片由AI生成,圖片授權服務商Midjourney
開發團隊表示,Teuken-7B 在所有訓練過的語言中都表現出色,尤其是在處理非英語語言時,其可靠性令人印象深刻。為衡量語言模型在歐洲語言中的表現,項目團隊還創建了一個全新的歐洲 LLM 排行榜,超越了以往主要基于英語的標準測試方法。
這一發布標志著歐洲在推動多語言人工智能模型方面的重大進展,同時也為開發者提供了一個強大且多樣化的工具,以支持跨語言的應用和研究。

