TextHarmony是華東師范大學(xué)和字節(jié)跳動(dòng)共同推出的多模態(tài)生成模型,擅長(zhǎng)理解和生成視覺(jué)文本。模型基于Slide-LoRA技術(shù),動(dòng)態(tài)聚合特定于模態(tài)和模態(tài)無(wú)關(guān)的LoRA專家,部分解耦多模態(tài)生成空間,在單一模型實(shí)例中協(xié)調(diào)視覺(jué)和語(yǔ)言的生成。TextHarmony在視覺(jué)和語(yǔ)言模態(tài)之間實(shí)現(xiàn)更統(tǒng)一的生成過(guò)程。研究團(tuán)隊(duì)推出高質(zhì)量的圖像字幕數(shù)據(jù)集DetailedTextCaps-100K,基于高級(jí)閉源MLLM合成,進(jìn)一步提升模型的視覺(jué)文本生成能力。
TextHarmony的主要功能視覺(jué)文本理解:TextHarmony能理解圖像中的文本信息,執(zhí)行如場(chǎng)景文本檢測(cè)、識(shí)別、文檔理解、視覺(jué)問(wèn)題回答(VQA)和關(guān)鍵信息提取(KIE)等任務(wù)。視覺(jué)文本生成:模型根據(jù)文本描述生成圖像,在生成的圖像中渲染準(zhǔn)確且連貫的文本。視覺(jué)文本編輯:TextHarmony替換或在圖像的特定位置渲染文本,且保持背景的一致性。視覺(jué)文本感知:模型具備基本的光學(xué)字符識(shí)別(OCR)能力,能檢測(cè)和識(shí)別圖像中的文字。TextHarmony的技術(shù)原理Slide-LoRA:動(dòng)態(tài)聚合模態(tài)特定和模態(tài)無(wú)關(guān)的LoRA(Low-Rank Adaptation)專家的方法,部分解耦多模態(tài)生成空間,讓模型在單一實(shí)例中生成視覺(jué)和語(yǔ)言模態(tài)時(shí)更加協(xié)調(diào)。多模態(tài)預(yù)訓(xùn)練:TextHarmony在包含豐富文本的圖像-文本語(yǔ)料庫(kù)上進(jìn)行預(yù)訓(xùn)練,學(xué)習(xí)生成多模態(tài)輸出。綜合微調(diào):在預(yù)訓(xùn)練的基礎(chǔ)上,TextHarmony在文本為中心的任務(wù)上進(jìn)行微調(diào),提升模型在多模態(tài)生成和遵循人類(lèi)指令方面的能力。高質(zhì)量數(shù)據(jù)集:創(chuàng)建DetailedTextCaps-100K數(shù)據(jù)集,提供詳細(xì)的圖像字幕對(duì),字幕對(duì)在圖像生成任務(wù)中關(guān)注視覺(jué)和文本元素,顯著提高圖像生成的質(zhì)量。模型架構(gòu):TextHarmony的架構(gòu)包括視覺(jué)編碼器、LLM(大型語(yǔ)言模型)和圖像解碼器,組件協(xié)同工作生成視覺(jué)和文本內(nèi)容。最大化條件概率,實(shí)現(xiàn)文本和圖像的交織令牌序列的生成。TextHarmony的項(xiàng)目地址GitHub倉(cāng)庫(kù):https://github.com/bytedance/TextHarmonyarXiv技術(shù)論文:https://arxiv.org/pdf/2407.16364TextHarmony的應(yīng)用場(chǎng)景文檔分析:TextHarmony用在自動(dòng)化處理和理解文檔中的文本內(nèi)容,例如自動(dòng)識(shí)別和提取文檔中的關(guān)鍵信息,提高文檔管理的效率。場(chǎng)景文本識(shí)別:在城市監(jiān)控、自動(dòng)駕駛等領(lǐng)域,TextHarmony識(shí)別和理解街景、廣告牌、交通標(biāo)志等場(chǎng)景中的文本信息。視覺(jué)問(wèn)題回答(VQA):TextHarmony能回答有關(guān)圖像內(nèi)容的問(wèn)題,在教育、娛樂(lè)和智能助手領(lǐng)域有廣泛應(yīng)用。圖像編輯和增強(qiáng):在設(shè)計(jì)和媒體制作中,TextHarmony根據(jù)需要在圖像中添加或修改文本,提高創(chuàng)意工作的靈活性。信息檢索:TextHarmony幫助開(kāi)發(fā)更智能的搜索引擎,理解圖像中的文本內(nèi)容來(lái)提供更準(zhǔn)確的搜索結(jié)果。 
