Pangea是卡內(nèi)基梅隆大學團隊推出的多語言多模態(tài)大型語言模型(LLM),能提升全球語言和文化多樣性的覆蓋。模型包含600萬條指令的多樣化數(shù)據(jù)集,支持39種語言,包含高質(zhì)量英文指令、機器翻譯指令及文化相關任務。Pangea基于包含14個數(shù)據(jù)集、覆蓋47種語言的PangeaABench評估套件進行性能評估。Pangea在多語言和文化背景下的性能超越現(xiàn)有開源模型(如Llava-1.5-7B、Llava-Next-7B)。研究發(fā)現(xiàn)英語數(shù)據(jù)比例、語言流行度和多模態(tài)訓練樣本數(shù)量對性能有顯著影響。
Pangea的主要功能多語言支持:能理解和生成39種不同語言的文本,在多語言交流和處理中非常有用。多模態(tài)理解:除文本外,能處理和理解圖像,在圖像描述、視覺問答等任務中表現(xiàn)出色。跨文化覆蓋:在訓練中包含與文化相關的多模態(tài)任務,有助于模型更好地理解和適應不同文化背景。高質(zhì)量指令遵循:Pangea在訓練中使用高質(zhì)量的英文指令,及經(jīng)過精心機器翻譯的指令,確保模型在不同語言中的準確性和一致性。Pangea的技術原理數(shù)據(jù)集構建:基于Pangea數(shù)據(jù)集,一個包含600萬條指令的多語言數(shù)據(jù)集,覆蓋39種語言。機器翻譯:為解決多語言數(shù)據(jù)的稀缺問題,用機器翻譯技術將高質(zhì)量英文指令翻譯成其他語言。文化相關任務:在訓練中包含與文化相關的多模態(tài)任務,提高模型對文化差異的理解和適應性。評估套件:PangeaABench是包含14個數(shù)據(jù)集、覆蓋47種語言的評估套件,用在全面評估模型在多語言和多模態(tài)任務中的表現(xiàn)。模型架構:基于LLaVA-Next架構,用Qwen2-7B-Instruct作為語言模型的骨干,為模型提供強大的語言理解和生成能力。Pangea的項目地址項目官網(wǎng):neulab.github.io/PangeaGitHub倉庫:https://github.com/neulab/PangeaHuggingFace模型庫:https://huggingface.co/collections/neulab/pangea-6713c3b0d78a453906eb2ed8arXiv技術論文:https://arxiv.org/pdf/2410.16153在線體驗Demo:https://huggingface.co/spaces/neulab/PangeaPangea的應用場景多語言客戶服務:在全球化的公司中,提供多語言的客戶支持和服務,幫助解決不同語言客戶的問題。教育和學習:作為教育工具,幫助學習者獲取多語言的學習材料,或在語言教學中提供輔助。跨文化交流:在國際組織或非政府組織中,促進不同文化背景人士之間的交流和理解。社交媒體和內(nèi)容創(chuàng)作:Pangea幫助內(nèi)容創(chuàng)作者生成多語言的內(nèi)容,或在社交媒體上與不同語言的用戶互動。旅游和導航:在旅游行業(yè)中,提供多語言的旅游信息和導航服務,幫助游客克服語言障礙。 
