阿里通義正式發(fā)布了其最新的生圖模型 Z-Image。該模型在發(fā)布首日便迅速登頂 Hugging Face 的趨勢(shì)榜,下載量達(dá)到驚人的50萬(wàn)次。Z-Image 以僅6億個(gè)參數(shù)的規(guī)模,實(shí)現(xiàn)了與大型模型相媲美的照片級(jí)真實(shí)感,能夠精細(xì)還原皮膚質(zhì)感、發(fā)絲細(xì)節(jié)以及自然光影和材質(zhì)紋理,展現(xiàn)出美學(xué)表現(xiàn)的構(gòu)圖與氛圍。

Z-Image 還推出了一個(gè)名為 Z-Image-Turbo 的優(yōu)化版本,這一版本在生成高質(zhì)量圖像時(shí)僅需8步推理,特別適合日常創(chuàng)作、海報(bào)設(shè)計(jì)及快速原型生成。即便在復(fù)雜的文本排版環(huán)境下,Z-Image-Turbo 也能準(zhǔn)確渲染中英文混合文本,保持文字清晰,并兼顧人臉的真實(shí)感和整體畫面的美感。

該模型具備廣泛的現(xiàn)實(shí)世界知識(shí),能夠生成著名地標(biāo)如埃菲爾鐵塔和故宮,并在細(xì)節(jié)、比例與語(yǔ)境上與真實(shí)世界相符。通過(guò)提示詞增強(qiáng)器,Z-Image 能夠理解并處理復(fù)雜任務(wù),表現(xiàn)出不僅僅是繪圖的能力,而是能夠進(jìn)行理解后的創(chuàng)作。

此外,Z-Image-Edit 則專注于復(fù)雜復(fù)合編輯指令的執(zhí)行,比如 “讓人物微笑 + 轉(zhuǎn)頭 + 背景換成櫻花 + 添加中文標(biāo)語(yǔ)”,在大幅修改中保持光照、身份和風(fēng)格的高度一致性,避免常見的錯(cuò)位和失真問(wèn)題。

在數(shù)據(jù)層面,Z-Image 構(gòu)建了高效的數(shù)據(jù)生態(tài),致力于用 “對(duì)的數(shù)據(jù)” 提升訓(xùn)練效率。模型架構(gòu)方面,Z-Image 采用了單流擴(kuò)散 Transformer(S3-DiT),有效提高了參數(shù)的利用率。訓(xùn)練過(guò)程中,通過(guò)三階段漸進(jìn)式策略系統(tǒng)地注入世界知識(shí),并通過(guò) Z-Image-Turbo 實(shí)現(xiàn)實(shí)時(shí)高質(zhì)量生成。

GitHub:https://github.com/Tongyi-MAI/Z-Image

Hugging Face:https://huggingface.co/Tongyi-MAI/Z-Image-Turbo

劃重點(diǎn):

?? Z-Image 模型首日下載量達(dá)50萬(wàn),迅速登頂 Hugging Face 趨勢(shì)榜。

?? Z-Image 以6億參數(shù)實(shí)現(xiàn)高質(zhì)量照片級(jí)真實(shí)感,兼顧文本渲染。

?? Z-Image-Turbo 和 Z-Image-Edit 提供高效的圖像生成與編輯能力。