近日,Cohere 宣布推出兩款新的開(kāi)源 AI 模型,旨在通過(guò)其 Aya 項(xiàng)目縮小基礎(chǔ)模型的語(yǔ)言差距。這兩款新模型名為 Aya Expanse8B 和35B,現(xiàn)已在 Hugging Face 上提供使用。這兩個(gè)模型的推出,讓23種語(yǔ)言的 AI 性能得到了顯著提升。

Cohere 在其博客中表示,8B 參數(shù)模型讓全球研究人員能更輕松地獲得突破,而32B 參數(shù)模型則提供了業(yè)界領(lǐng)先的多語(yǔ)言能力。

Aya 項(xiàng)目的目標(biāo)是擴(kuò)展更多非英語(yǔ)語(yǔ)言的基礎(chǔ)模型訪問(wèn)。在此之前,Cohere 的研究部門(mén)去年啟動(dòng)了 Aya 計(jì)劃,并在2月份發(fā)布了 Aya101大語(yǔ)言模型(LLM),這款模型涵蓋了101種語(yǔ)言。此外,Cohere 還推出了 Aya 數(shù)據(jù)集,以幫助在其他語(yǔ)言上進(jìn)行模型訓(xùn)練。

Aya Expanse 模型在構(gòu)建過(guò)程中沿用了 Aya101的許多核心方法。Cohere 表示,Aya Expanse 的改進(jìn)是基于多年來(lái)在機(jī)器學(xué)習(xí)突破領(lǐng)域重新思考核心構(gòu)建塊的結(jié)果。他們的研究方向主要集中在縮小語(yǔ)言差距,取得了一些關(guān)鍵性突破,如數(shù)據(jù)套利、針對(duì)一般性能和安全性的偏好訓(xùn)練以及模型合并等。

在多項(xiàng)基準(zhǔn)測(cè)試中,Cohere 表示,Aya Expanse 的兩個(gè)模型表現(xiàn)超越了 Google、Mistral 和 Meta 等公司同類規(guī)模的 AI 模型。

其中,Aya Expanse32B 在多語(yǔ)言基準(zhǔn)測(cè)試中的表現(xiàn)超越了 Gemma227B、Mistral8x22B,甚至是更大的 Llama3.170B。而小型的8B 模型同樣超越了 Gemma29B、Llama3.18B 和 Ministral8B,勝率從60.4% 到70.6% 不等。

為了避免生成難以理解的內(nèi)容,Cohere 采用了一種名為數(shù)據(jù)套利的數(shù)據(jù)采樣方法。這種方法能夠更好地訓(xùn)練模型,尤其是針對(duì)低資源語(yǔ)言時(shí)更為有效。此外,Cohere 還專注于引導(dǎo)模型朝向 “全球偏好”,并考慮不同文化和語(yǔ)言的視角,進(jìn)而提高模型的性能與安全性。

Cohere 的 Aya 計(jì)劃力求確保 LLM 在非英語(yǔ)語(yǔ)言的研究上能夠有更好的表現(xiàn)。雖然許多 LLM 最終會(huì)推出其他語(yǔ)言版本,但在訓(xùn)練模型時(shí)常常面臨數(shù)據(jù)不足的問(wèn)題,尤其是對(duì)于低資源語(yǔ)言。因此,Cohere 的努力在幫助構(gòu)建多語(yǔ)言 AI 模型方面顯得尤為重要。

官方博客:https://cohere.com/blog/aya-expanse-connecting-our-world

劃重點(diǎn):

?? **Cohere 推出兩款新 AI 模型 **,致力于縮小基礎(chǔ)模型的語(yǔ)言差距,支持23種語(yǔ)言的性能提升。

?? **Aya Expanse 模型表現(xiàn)優(yōu)異 **,在多語(yǔ)言基準(zhǔn)測(cè)試中超越了許多同類競(jìng)爭(zhēng)對(duì)手。

?? ** 數(shù)據(jù)套利方法 ** 幫助模型避免生成低質(zhì)量?jī)?nèi)容,關(guān)注全球文化與語(yǔ)言視角,提高了多語(yǔ)言 AI 的訓(xùn)練效果。