2阿里巴巴通義實(shí)驗(yàn)室今日正式開源 Z-Image-Turbo-Fun-Controlnet-Union,這款全新 ControlNet 模型標(biāo)志著其 Z-Image 系列圖像生成生態(tài)的重大擴(kuò)展。作為 AIbase 獨(dú)家追蹤的開源 AI 動(dòng)態(tài),此次發(fā)布進(jìn)一步強(qiáng)化了 Z-Image-Turbo 在精確控制與創(chuàng)意生成方面的領(lǐng)先優(yōu)勢,迅速引發(fā)全球開發(fā)者與創(chuàng)作者的熱議。

模型已在 Hugging Face 平臺(tái)上線,支持 Apache2.0許可,適用于商用場景。發(fā)布背景與技術(shù)基礎(chǔ)Z-Image 系列自11月底首發(fā)以來,已迅速登頂 Hugging Face 趨勢榜,首日下載量突破50萬次。

該系列以單流擴(kuò)散架構(gòu)為核心,僅6億參數(shù)卻實(shí)現(xiàn)照片級(jí)真實(shí)感渲染,包括皮膚紋理、發(fā)絲細(xì)節(jié)及光影美學(xué)優(yōu)化。Z-Image-Turbo 作為快速推理版本,僅需8步采樣即可生成1024x1024分辨率圖像,推理時(shí)間低至9秒(RTX4080硬件),并在提示詞理解上支持中英混合文本渲染,顯著提升了創(chuàng)作效率。

此次 Z-Image-Turbo-Fun-Controlnet-Union 的推出,是對(duì) Z-Image-Turbo 的深度擴(kuò)展。它在模型的6個(gè)核心塊上集成 ControlNet 結(jié)構(gòu),兼容 Canny 邊緣檢測、HED 邊界提取及 Depth 深度映射等多模態(tài)控制條件。該模型專為復(fù)雜場景設(shè)計(jì),如人物姿態(tài)精確生成及基于線稿的建筑渲染,目前通過 Python 代碼實(shí)現(xiàn)集成,ComfyUI 等工作流支持即將跟進(jìn)。

核心功能與應(yīng)用亮點(diǎn)

多條件控制融合:支持姿態(tài)、邊緣與深度信息的聯(lián)合輸入,實(shí)現(xiàn)“零失真”圖像操控。開發(fā)者可輕松構(gòu)建從草圖到成品的自動(dòng)化管道,適用于電商視覺設(shè)計(jì)、影視特效及游戲原型制作。高效兼容性:繼承 Z-Image-Turbo 的輕量架構(gòu),僅需6GB VRAM 即可運(yùn)行,遠(yuǎn)低于傳統(tǒng) ControlNet 模型的硬件門檻。測試顯示,在低端 GPU 上生成速度達(dá)250秒/5步,平衡了質(zhì)量與實(shí)時(shí)性。開源生態(tài)賦能:模型提供4-bit 量化版本(如 MFLUX 兼容),便于 Mac 等消費(fèi)級(jí)設(shè)備部署。同時(shí),Z-Image-Edit 變體增強(qiáng)了復(fù)合編輯指令理解,保持畫面一致性。

這些功能不僅降低了 AI 圖像生成的門檻,還為非專業(yè)用戶打開了專業(yè)級(jí)創(chuàng)作大門。社區(qū)反饋顯示,該模型在廣告素材生成中,提示詞忠實(shí)度超越 OVIS Image 等競品。

社區(qū)反響與未來展望開源社區(qū)對(duì) Z-Image-Turbo-Fun-Controlnet-Union 的響應(yīng)熱烈,Reddit 與 X 平臺(tái)上涌現(xiàn)大量基準(zhǔn)測試,包括名人面部識(shí)別及 K-pop 偶像生成實(shí)驗(yàn),結(jié)果顯示其在辨識(shí)度與自然度上表現(xiàn)出色。開發(fā)者贊譽(yù)其“按著 Flux 打”的效率優(yōu)勢,尤其在低 CFG Scale(2-3)下的穩(wěn)定輸出。 AIbase 分析,此次發(fā)布強(qiáng)化了阿里巴巴在開源 AI 領(lǐng)域的全球競爭力。

未來,預(yù)計(jì)將與 Z-Image-Base 版本聯(lián)動(dòng),形成完整圖像生成-編輯-控制閉環(huán)。

Hugging Face :https://huggingface.co/alibaba-pai/Z-Image-Turbo-Fun-Controlnet-Union