PromptFix是新型的指令引導擴散模型,結(jié)合語言模型和大規(guī)模視覺指令數(shù)據(jù)集,根據(jù)人類指令執(zhí)行多樣化的圖像處理任務(wù)。PromptFix基于構(gòu)建大規(guī)模的指令遵循數(shù)據(jù)集,提出高頻引導采樣方法和輔助提示適配器,增強對圖像高頻細節(jié)的保留和處理嚴重退化圖像的能力。實驗結(jié)果表明,PromptFix在多種圖像處理任務(wù)中優(yōu)于現(xiàn)有方法,展現(xiàn)出優(yōu)越的零樣本能力,在盲恢復和組合任務(wù)中表現(xiàn)出色。PromptFix有效地解決了空間信息丟失和圖像退化適應問題,提高模型在遵循指令進行圖像處理時的性能和準確性。
PromptFix的主要功能圖像處理任務(wù)執(zhí)行:PromptFix根據(jù)用戶自定義的指令執(zhí)行包括低級任務(wù)、圖像編輯和對象創(chuàng)建在內(nèi)的廣泛圖像處理任務(wù)。高頻細節(jié)保護:基于高頻引導采樣方法,PromptFix在圖像生成或編輯過程中保護高頻細節(jié),確保圖像細節(jié)的精確保留。任務(wù)泛化能力提升:基于視覺語言模型(VLMs)輔助提示適配器,增強文本提示,提升模型在不同圖像處理任務(wù)間的泛化能力。零樣本學習能力:PromptFix展現(xiàn)出優(yōu)越的零樣本能力,尤其在盲恢復和組合任務(wù)中,無需額外訓練即可處理未見過的任務(wù)。大規(guī)模數(shù)據(jù)集構(gòu)建:構(gòu)建大規(guī)模的指令遵循數(shù)據(jù)集,覆蓋多種圖像處理任務(wù),為模型提供豐富的學習樣本。PromptFix的技術(shù)原理擴散模型:擴散模型用逐步添加高斯噪聲將數(shù)據(jù)轉(zhuǎn)換為噪聲,從噪聲中重建數(shù)據(jù)。PromptFix基于這一原理,用預測噪聲模式逐步還原清晰的圖像。高頻引導采樣(High-frequency Guidance Sampling):為保持圖像中的高頻細節(jié),PromptFix引入高頻引導采樣方法。用低通濾波器和VAE跳躍連接特征計算保真度約束,確保在去噪過程中保留高頻細節(jié)。輔助提示適配器(Auxiliary Prompting Adapter):PromptFix設(shè)計輔助提示適配器,基于視覺語言模型(VLMs)增強文本提示,提供更豐富的語義信息,改善模型對復雜指令的理解和執(zhí)行。數(shù)據(jù)集構(gòu)建:構(gòu)建大規(guī)模的指令遵循數(shù)據(jù)集,覆蓋多種圖像處理任務(wù),包括低級任務(wù)、圖像編輯和對象創(chuàng)建,為模型提供豐富的學習樣本。跨模態(tài)學習:將視覺數(shù)據(jù)和語言指令結(jié)合起來,PromptFix實現(xiàn)跨模態(tài)學習,讓模型能理解和執(zhí)行與圖像內(nèi)容相關(guān)的復雜指令。優(yōu)化和損失函數(shù):在訓練過程中,PromptFix采用特定的優(yōu)化策略和損失函數(shù),確保模型能有效地從噪聲中恢復出高質(zhì)量的圖像,準確地執(zhí)行用戶的編輯指令。PromptFix的項目地址項目官網(wǎng):yongshengyu.com/PromptFix-PageGitHub倉庫:https://github.com/yeates/PromptFixHuggingFace模型庫:https://huggingface.co/datasets/yeates/PromptfixDataarXiv技術(shù)論文:https://arxiv.org/pdf/2405.16785PromptFix的應用場景個人照片編輯:個人用戶修復老照片、去除照片中的不想要的物體或人物,或者給黑白照片上色。專業(yè)攝影:攝影師增強圖片細節(jié),如在光線不足的情況下提高照片的亮度和清晰度,或者改變照片的風格和色調(diào)。數(shù)字藝術(shù)創(chuàng)作:藝術(shù)家創(chuàng)造新的藝術(shù)作品,比如將現(xiàn)實照片轉(zhuǎn)換成油畫或其他藝術(shù)風格。媒體和廣告:在廣告制作中,快速修改廣告圖像,適應不同的廣告文案或品牌要求。電影和視頻制作:在電影后期制作中,修復損壞的電影膠片,或者在不需要昂貴的現(xiàn)場拍攝的情況下創(chuàng)建特效場景。 
