通義千問團(tuán)隊(duì)近日宣布開源其最新的Qwen2.5-Coder全系列,這一舉措旨在推動(dòng)Open Code LLMs的發(fā)展。Qwen2.5-Coder以其強(qiáng)大、多樣和實(shí)用性受到關(guān)注。Qwen2.5-Coder-32B-Instruct模型在代碼能力上達(dá)到了SOTA水平,與GPT-4o相當(dāng),展現(xiàn)出全面的能力,包括代碼生成、代碼修復(fù)和代碼推理。它在多個(gè)代碼生成基準(zhǔn)測試中取得了最佳表現(xiàn),并在Aider基準(zhǔn)測試中達(dá)到73.7分,與GPT-4o表現(xiàn)相當(dāng)。

Qwen2.5-Coder支持超過40種編程語言,并在McEval上獲得65.9分,其中Haskell、Racket等語言的表現(xiàn)尤為突出。這得益于其預(yù)訓(xùn)練階段獨(dú)特的數(shù)據(jù)清洗和配比。此外,Qwen2.5-Coder-32B-Instruct在多編程語言的代碼修復(fù)能力上也表現(xiàn)出色,在MdEval基準(zhǔn)測試中得分75.2,排名第一。

為了檢驗(yàn)Qwen2.5-Coder-32B-Instruct在人類偏好上的對齊表現(xiàn),構(gòu)建了一個(gè)內(nèi)部標(biāo)注的代碼偏好評估基準(zhǔn)Code Arena。結(jié)果顯示Qwen2.5-Coder-32B-Instruct在偏好對齊方面具有優(yōu)勢。

Qwen2.5-Coder系列此次開源了四個(gè)尺寸的模型,包括0.5B/3B/14B/32B,覆蓋了主流的六個(gè)模型尺寸,滿足不同開發(fā)者的需求。官方提供了Base和Instruct兩種模型,前者作為開發(fā)者微調(diào)模型的基礎(chǔ),后者作為官方對齊的聊天模型。模型尺寸與效果之間存在正相關(guān),Qwen2.5-Coder在所有尺寸下都取得了SOTA表現(xiàn)。

Qwen2.5-Coder的0.5B/1.5B/7B/14B/32B模型采用Apache2.0許可,而3B模型為Research Only許可。團(tuán)隊(duì)通過評估不同尺寸的Qwen2.5-Coder在所有數(shù)據(jù)集上的表現(xiàn),驗(yàn)證了Scaling在Code LLMs上的有效性。

Qwen2.5-Coder的開源,為開發(fā)者提供了一個(gè)強(qiáng)大、多樣化且實(shí)用的編程模型選擇,有助于推動(dòng)編程語言模型的發(fā)展和應(yīng)用。

Qwen2.5-Coder模型鏈接:

https://modelscope.cn/collections/Qwen25-Coder-9d375446e8f5814a