Ovis1.6是什么

Ovis1.6是阿里國際AI團隊推出的多模態(tài)大模型,在多模態(tài)權(quán)威綜合評測基準OpenCompass上取得了優(yōu)異的成績,特別是在30億參數(shù)以下的模型中綜合得分排名第一,超越了其他主流模型。Ovis1.6模型在數(shù)學(xué)推理、視覺理解等多項任務(wù)中表現(xiàn)出色,甚至超過閉源的GPT-4o-mini模型。Ovis1.6能處理包括文本和圖像在內(nèi)的多種數(shù)據(jù)輸入,具備強大的視覺感知推理、數(shù)學(xué)和科學(xué)問題解答、生活場景理解等多模態(tài)任務(wù)處理能力。

Ovis1.6  阿里國際AI團隊推出的多模態(tài)大模型,超過閉源GPT-4o-mini 第1張Ovis1.6的主要功能數(shù)學(xué)推理問答:準確回答各種數(shù)學(xué)問題,包括復(fù)雜的數(shù)學(xué)公式和邏輯推理。物體識別:識別不同物體,例如花卉品種,表明其在圖像識別方面的能力。文本提取:支持多種語言的文本提取,Ovis1.6能從各種文檔中識別和提取文本信息。復(fù)雜任務(wù)決策:處理和理解多種類型的數(shù)據(jù)輸入,進行復(fù)雜的決策任務(wù),如圖像和文本的綜合分析。圖像理解:在圖像理解任務(wù)上達到SOTA(State of the Art)水平,能處理高分辨率和極端長寬比的圖像。Ovis1.6的技術(shù)原理創(chuàng)新架構(gòu)設(shè)計:Ovis1.6基于視覺tokenizer加上視覺嵌入表和大語言模型的架構(gòu)。設(shè)計引入可學(xué)習(xí)的視覺嵌入表,將連續(xù)的視覺特征轉(zhuǎn)換為概率化的視覺token,再通過視覺嵌入表多次索引加權(quán)得到結(jié)構(gòu)化的視覺嵌入,提升多模態(tài)任務(wù)的表現(xiàn)。高分圖像處理:Ovis1.6支持處理極端長寬比的圖像,并且兼容高分辨率圖像,使模型在圖像理解任務(wù)上展現(xiàn)出色的能力。全面數(shù)據(jù)優(yōu)化:Ovis1.6在訓(xùn)練中使用多種類型的數(shù)據(jù)集,包括Caption、VQA、OCR、Table、Chart等,全面數(shù)據(jù)覆蓋顯著提升模型在多模態(tài)問答、指令跟隨等任務(wù)上的表現(xiàn)。卓越模型性能:在多模態(tài)權(quán)威綜合評測OpenCompass上,Ovis1.6-Gemma2-9B在30B參數(shù)以下的模型中取得綜合排名第一的成績,展現(xiàn)了優(yōu)異的性能。Ovis1.6的項目地址GitHub倉庫:https://github.com/AIDC-AI/OvisHuggingFace模型庫:https://huggingface.co/AIDC-AI/Ovis1.6-Gemma2-9BarXiv技術(shù)論文:https://arxiv.org/pdf/2405.20797Ovis1.6的應(yīng)用場景教育和學(xué)習(xí)輔助:Ovis1.6能準確回答數(shù)學(xué)問題,識別和解釋數(shù)學(xué)公式,作為教育工具,能幫助學(xué)生學(xué)習(xí)和理解復(fù)雜概念。農(nóng)業(yè)和植物識別:通過物體識別能力,Ovis1.6幫助識別不同品種的植物,對農(nóng)業(yè)研究和植物保護等領(lǐng)域有重要作用。語言翻譯和文本處理:支持多種語言的文本提取和翻譯,適用于跨語言交流、國際商務(wù)和多語言內(nèi)容創(chuàng)作。圖像識別和分析:識別手寫字體和復(fù)雜圖像,適用于圖像內(nèi)容審核、安全監(jiān)控和藝術(shù)作品分析。自動駕駛:整合視覺數(shù)據(jù),提高自動駕駛車輛的環(huán)境感知和決策能力,增強行車安全。醫(yī)療診斷:輔助醫(yī)生進行醫(yī)學(xué)圖像分析,提高疾病診斷的準確性和效率。