全球海拔最高的大語言模型正式誕生。西藏大學(xué)與本土創(chuàng)業(yè)團(tuán)隊(duì)聯(lián)合發(fā)布的“陽光清言”V1.0今日亮相,模型參數(shù)量突破千億,訓(xùn)練語料達(dá)288億Token,覆蓋新聞、法律、醫(yī)學(xué)、教育、科技等全領(lǐng)域,一舉填補(bǔ)藏語AI基礎(chǔ)設(shè)施的空白。

國務(wù)院8月印發(fā)的《“人工智能+”行動(dòng)意見》被視作西藏AI提速的發(fā)令槍。目前,拉薩主城區(qū)社區(qū)服務(wù)中心、貢嘎機(jī)場(chǎng)航站樓已率先接入AI客服與實(shí)時(shí)翻譯系統(tǒng);正在進(jìn)行的青藏科考中,“e科考”App借助衛(wèi)星鏈路完成全息影像采集與云端秒級(jí)回傳,科考隊(duì)野外數(shù)據(jù)整理時(shí)間縮短一半。

西藏首個(gè)千億參數(shù)藏語大模型“陽光清言”問世,人工智能在高原邁入新階段  第1張

圖源備注:圖片由AI生成,圖片授權(quán)服務(wù)商Midjourney

藏語數(shù)字化奠基人、西藏大學(xué)教授尼瑪扎西院士表示,西藏AI正從“場(chǎng)景應(yīng)用”邁向“系統(tǒng)研發(fā)”,核心突破口在于語料。青年創(chuàng)業(yè)者旦增羅布團(tuán)隊(duì)用六年時(shí)間搭建7000萬條藏漢平行語料庫,并建立覆蓋140國多語種語音數(shù)據(jù)庫,為“陽光清言”和年底即將開放的DeepZang模型提供數(shù)據(jù)底座。

“模型上線后,政務(wù)辦事、遠(yuǎn)程醫(yī)療、生態(tài)監(jiān)測(cè)均可實(shí)現(xiàn)母語交互,藏語傳承不再依賴紙質(zhì)檔案。”尼瑪扎西說。業(yè)內(nèi)普遍認(rèn)為,千億參數(shù)藏語大模型的出現(xiàn),為其他低資源語言智能化提供了可復(fù)制的高原樣本。