CSGO是什么

CSGO(Content-Style Composition in Text-to-Image Generation)是南京理工大學(xué)、小紅書等機(jī)構(gòu)合作推出的圖像風(fēng)格遷移和文本到圖像生成的研究項(xiàng)目。CSGO的目標(biāo)是為用戶提供更加豐富和多樣化的圖像創(chuàng)作工具。項(xiàng)目提出創(chuàng)新的數(shù)據(jù)構(gòu)建流程,用于生成和清洗風(fēng)格化數(shù)據(jù)三元組,并構(gòu)建名為IMAGStyle的大規(guī)模風(fēng)格遷移數(shù)據(jù)集。基于數(shù)據(jù)集,CSGO框架通過端到端訓(xùn)練,實(shí)現(xiàn)圖像驅(qū)動(dòng)的風(fēng)格遷移、文本驅(qū)動(dòng)的風(fēng)格化合成以及文本編輯驅(qū)動(dòng)的風(fēng)格化合成,顯著提升圖像生成中的風(fēng)格控制能力。

CSGO AI  小紅書聯(lián)合南理工推出的AI文生圖項(xiàng)目 第1張CSGO的主要功能圖像驅(qū)動(dòng)的風(fēng)格遷移:用戶將一種圖像的風(fēng)格應(yīng)用到另一種圖像上,實(shí)現(xiàn)視覺上的風(fēng)格轉(zhuǎn)換,同時(shí)保持原始內(nèi)容的語義。文本驅(qū)動(dòng)的風(fēng)格化合成:輸入文本描述,生成具有特定風(fēng)格的圖像,展示了在理解自然語言和將文本轉(zhuǎn)化為視覺風(fēng)格方面的能力。文本編輯驅(qū)動(dòng)的風(fēng)格化合成:在生成圖像后,用戶通過編輯文本描述進(jìn)一步調(diào)整圖像的風(fēng)格,提供更高級別的創(chuàng)作控制。端到端訓(xùn)練模型:CSGO采用端到端的訓(xùn)練方法,模型從輸入到輸出的整個(gè)過程是連續(xù)的,無需分階段處理,提高了模型的效率和效果。特征注入技術(shù):通過獨(dú)立的特征注入技術(shù),CSGO將內(nèi)容和風(fēng)格特征明確解耦,分別提取并融合到生成的圖像中,確保內(nèi)容的準(zhǔn)確性和風(fēng)格的一致性。CSGO的技術(shù)原理數(shù)據(jù)構(gòu)建流程:CSGO通過一個(gè)自動(dòng)化的數(shù)據(jù)構(gòu)建流程生成和清洗風(fēng)格化數(shù)據(jù)三元組,三元組包括內(nèi)容圖像、風(fēng)格圖像和對應(yīng)的風(fēng)格化結(jié)果圖像。端到端訓(xùn)練模型:CSGO采用端到端的訓(xùn)練方法,模型直接從輸入學(xué)習(xí)到輸出,無需分階段處理,提高了模型的效率和效果。特征注入技術(shù)內(nèi)容控制:使用預(yù)訓(xùn)練的ControlNet和額外的可學(xué)習(xí)交叉注意力層,將內(nèi)容特征注入到基礎(chǔ)模型中,保留原始內(nèi)容的語義和布局。風(fēng)格控制:通過預(yù)訓(xùn)練的圖像編碼器和風(fēng)格投影層,提取風(fēng)格特征,將其注入到模型的上采樣塊和獨(dú)立的風(fēng)格控制模塊中。擴(kuò)散模型:CSGO利用擴(kuò)散模型逐步去除噪聲來生成圖像,在風(fēng)格遷移的上下文中將一種風(fēng)格應(yīng)用到內(nèi)容圖像上,同時(shí)保持內(nèi)容的完整性。內(nèi)容對齊評分(CAS):CSGO引入內(nèi)容對齊評分(Content Alignment Score),衡量生成圖像與原始內(nèi)容圖像在內(nèi)容上的一致性,評估風(fēng)格遷移的質(zhì)量。CSGO的項(xiàng)目地址項(xiàng)目官網(wǎng):csgo-gen.github.ioGitHub倉庫:https://github.com/instantX-research/CSGOHuggingFace模型庫:https://huggingface.co/spaces/xingpng/CSGOarXiv技術(shù)論文:https://arxiv.org/pdf/2408.16766CSGO的應(yīng)用場景藝術(shù)創(chuàng)作:藝術(shù)家和設(shè)計(jì)師用CSGO來探索新的藝術(shù)風(fēng)格,創(chuàng)作獨(dú)特的數(shù)字藝術(shù)作品,或在保持內(nèi)容主題不變的情況下嘗試不同的視覺表現(xiàn)手法。數(shù)字娛樂:在游戲開發(fā)和電影制作中,CSGO用來生成具有特定風(fēng)格的場景和角色概念圖,為數(shù)字內(nèi)容創(chuàng)作提供多樣化的視覺元素。設(shè)計(jì)行業(yè):設(shè)計(jì)師基于CSGO快速生成設(shè)計(jì)草圖和原型,通過不同的風(fēng)格化圖像來展示產(chǎn)品設(shè)計(jì),或在設(shè)計(jì)過程中快速迭代和測試不同的視覺風(fēng)格。廣告營銷:營銷人員用CSGO生成吸引人的廣告視覺內(nèi)容,將產(chǎn)品圖像風(fēng)格化來吸引目標(biāo)受眾,或根據(jù)品牌形象定制獨(dú)特的視覺風(fēng)格。社交媒體內(nèi)容創(chuàng)作:內(nèi)容創(chuàng)作者和影響者用CSGO為社交媒體平臺(如Instagram、小紅書等)創(chuàng)作風(fēng)格化的內(nèi)容,提高視覺吸引力和個(gè)性化表達(dá)。