彩云科技日前在北京舉辦"From Paper to App"主題溝通會,正式發布基于DCFormer架構的通用大模型"云錦天章",并宣布旗下AI RPG平臺彩云小夢升級至基于DCFormer的V3. 5 版本。這標志著人工智能領域在模型架構效率方面取得重大突破。

在AI領域,Transformer架構一直是ChatGPT、Gemini等主流大模型的核心技術支撐。今年,彩云科技在國際頂級會議ICML上發表的論文《Improving Transformers with Dynamically Composable Multi-Head Attention》首次提出DCFormer架構。測試顯示,基于該架構開發的DCPythia-6.9B模型在性能上實現了對傳統Transformer模型1.7- 2 倍的顯著提升。

對于AI發展面臨的能源挑戰,彩云科技CEO袁行遠指出,根據預測,到 2050 年全球AI耗電量可能達到目前地球發電能力的 8 倍。英偉達CEO黃仁勛更形象地表示,按目前發展速度,未來可能需要" 14 個行星、 3 個星系、 4 個太陽"來為AI提供能源支持。

針對這一困境,彩云科技選擇從改善模型底層架構入手。DCFormer通過引入可動態組合的多頭注意力(DCMHA)機制,解除了傳統多頭注意力模塊(MHA)中注意力頭的固定綁定,實現了更靈活的動態組合,從而大幅提升模型表達能力。該創新使彩云科技在ICML會議上的三篇論文獲得平均 7 分的高分,并成為國內僅有的兩家受邀在維也納ICML2024 登臺演講的企業之一。

作為DCFormer架構的首個落地產品,新版彩云小夢展現出卓越性能:支持 1 萬字的長文本輸入,故事背景設定長度可達 1 萬字,整體流暢性和連貫性提升20%。這意味著AI能夠更好地維持劇情連貫性,保持人物性格一致性,并具備情節反思和修正能力。

彩云科技作為國內最早涉足大語言模型的企業之一,目前已擁有彩云天氣、彩云小夢、彩云小譯三款盈利性AI產品。公司表示將繼續加大對DCFormer的研發投入,致力于打破"國外技術層、國內應用層"的傳統格局,推動國產AI技術在全球競爭中占據優勢地位。

通過這次技術突破,彩云科技不僅展現了中國企業在AI底層架構創新方面的實力,更為解決AI發展中的能源瓶頸提供了新思路,有望加速AI技術的可持續發展。