LEOPARD是什么

LEOPARD是騰訊AI Lab西雅圖實(shí)驗(yàn)室推出的視覺語(yǔ)言模型,專為理解和處理含有大量文本的多圖像任務(wù)設(shè)計(jì)。LEOPARD基于兩個(gè)主要技術(shù)創(chuàng)新:一是策劃約一百萬(wàn)條專門針對(duì)文本豐富、多圖像場(chǎng)景的高質(zhì)量多模態(tài)指令調(diào)優(yōu)數(shù)據(jù)集;二是開發(fā)自適應(yīng)高分辨率多圖像編碼模塊,動(dòng)態(tài)優(yōu)化視覺序列長(zhǎng)度分配。LEOPARD在多個(gè)基準(zhǔn)測(cè)試中展現(xiàn)卓越的性能,在需要理解單個(gè)圖像內(nèi)容及跨多個(gè)視覺輸入進(jìn)行推理的復(fù)雜任務(wù)中表現(xiàn)出色。

LEOPARD  騰訊AI Lab西雅圖實(shí)驗(yàn)室推出的視覺語(yǔ)言模型 第1張LEOPARD的主要功能處理文本豐富的多圖像任務(wù):用于理解和處理包含大量文本信息的多圖像場(chǎng)景,如幻燈片、掃描文檔和網(wǎng)頁(yè)截圖等。跨圖像推理:模型能理解單個(gè)圖像的內(nèi)容,在多個(gè)圖像間進(jìn)行邏輯推理和關(guān)系建立。高分辨率圖像處理:基于自適應(yīng)高分辨率多圖像編碼模塊,能有效處理高分辨率圖像,保持文本和細(xì)節(jié)的清晰度。動(dòng)態(tài)視覺序列長(zhǎng)度優(yōu)化:根據(jù)輸入圖像的原始縱橫比和分辨率動(dòng)態(tài)優(yōu)化視覺序列長(zhǎng)度,平衡圖像細(xì)節(jié)和模型處理能力。多模態(tài)指令調(diào)優(yōu):用大規(guī)模多模態(tài)指令調(diào)優(yōu)數(shù)據(jù)集,能針對(duì)復(fù)雜的視覺語(yǔ)言任務(wù)進(jìn)行優(yōu)化。LEOPARD的技術(shù)原理多模態(tài)大型語(yǔ)言模型(MLLM):基于MLLM架構(gòu),整合視覺編碼器、視覺語(yǔ)言連接器和語(yǔ)言模型,處理視覺和文本信息。數(shù)據(jù)集構(gòu)建:構(gòu)建LEOPARD-INSTRUCT數(shù)據(jù)集,包含約一百萬(wàn)條針對(duì)文本豐富、多圖像場(chǎng)景的指令,用在模型訓(xùn)練和優(yōu)化。自適應(yīng)高分辨率編碼:基于自適應(yīng)策略,根據(jù)輸入圖像的特性動(dòng)態(tài)調(diào)整視覺特征序列,適應(yīng)模型的序列長(zhǎng)度限制。像素洗牌技術(shù):應(yīng)用像素洗牌操作,將長(zhǎng)視覺特征序列無(wú)損壓縮成更短的序列,便于模型處理更多的高分辨率圖像。圖像分割:將高分辨率圖像分割成多個(gè)子圖像,以便獨(dú)立處理并保留細(xì)節(jié),然后將視覺特征與文本信息一起輸入到語(yǔ)言模型中。LEOPARD的項(xiàng)目地址GitHub倉(cāng)庫(kù):https://github.com/tencent-ailab/LeopardHuggingFace模型庫(kù):https://huggingface.co/datasets/wyu1/Leopard-InstructarXiv技術(shù)論文:https://arxiv.org/pdf/2410.01744LEOPARD的應(yīng)用場(chǎng)景自動(dòng)化文檔理解:處理多頁(yè)文檔,如合同、報(bào)告和學(xué)術(shù)論文,自動(dòng)提取關(guān)鍵信息和數(shù)據(jù)。教育和學(xué)術(shù)研究:輔助教育工具,如電子課件和學(xué)術(shù)演示文稿,提供交互式學(xué)習(xí)體驗(yàn)。商業(yè)智能和數(shù)據(jù)分析:分析商業(yè)圖表和表格,提供市場(chǎng)趨勢(shì)預(yù)測(cè)和決策支持。網(wǎng)頁(yè)內(nèi)容分析:理解和提取網(wǎng)頁(yè)內(nèi)容,用于搜索引擎優(yōu)化(SEO)和內(nèi)容推薦系統(tǒng)。客戶服務(wù)和支持:基于分析用戶上傳的圖像和文本,提供更準(zhǔn)確的客戶服務(wù)和技術(shù)支持。