昨日晚間,Stability AI發(fā)布了其最強(qiáng)大的模型——Stable Diffusion3.5,這不僅是一個(gè)單一的模型,而是一個(gè)包含三個(gè)版本的全家桶,旨在滿足從科研人員到業(yè)務(wù)愛好者、初創(chuàng)公司和企業(yè)的多樣化需求。

這三個(gè)版本分別是Stable Diffusion3.5Large、Stable Diffusion3.5Large Turbo和即將于10月29日發(fā)布的Stable Diffusion3.5Medium。

Stable Diffusion3.5Large是一個(gè)擁有80億參數(shù)的基礎(chǔ)模型,以其卓越的圖像質(zhì)量和提示詞精確度而著稱,非常適合專業(yè)用途,能夠生成高達(dá)1百萬像素分辨率的圖像。

Stable Diffusion3.5Large Turbo是前者的蒸餾版本,它能夠在僅4步內(nèi)生成高質(zhì)量圖像,生成速度遠(yuǎn)快于Stable Diffusion3.5Large。

而Stable Diffusion3.5Medium則擁有25億參數(shù),采用改進(jìn)的MMDiT-X架構(gòu)和訓(xùn)練方法,設(shè)計(jì)為即插即用,能夠在消費(fèi)級硬件上直接運(yùn)行,平衡了圖像質(zhì)量與可定制性,能夠生成分辨率在0.25到2百萬像素之間的圖像。

這些模型的開發(fā)優(yōu)先考慮了可定制性,通過將Query-Key Normalization集成到transformer塊中,穩(wěn)定了模型訓(xùn)練過程并簡化了進(jìn)一步的微調(diào)和開發(fā)。為了支持下游任務(wù)的靈活性,Stability AI在模型中保留了更廣泛的知識基礎(chǔ)和多樣化的風(fēng)格,盡管這可能導(dǎo)致輸出結(jié)果的不確定性增加。

Stable Diffusion3.5模型在多個(gè)方面表現(xiàn)出色,包括可定制性、高效性能和多樣化輸出。這些模型能夠輕松微調(diào)以滿足特定創(chuàng)作需求,或根據(jù)定制的工作流程構(gòu)建應(yīng)用程序。它們還經(jīng)過優(yōu)化,可在標(biāo)準(zhǔn)消費(fèi)級硬件上運(yùn)行,無需過高的硬件要求。此外,這些模型能夠創(chuàng)建代表全世界的圖像,無需大量的提示詞,同時(shí)能夠生成各種風(fēng)格和美感的圖片,如3D、攝影、繪畫、線條藝術(shù)以及幾乎任何可以想象到的視覺風(fēng)格。

Stability AI還強(qiáng)調(diào)了其對安全的承諾,采取了合理的措施防止Stable Diffusion3.5被濫用,并從開發(fā)早期階段就注重完整性。此外,Stability AI社區(qū)許可非常寬松,允許個(gè)人和組織免費(fèi)使用該模型進(jìn)行非商業(yè)用途,包括科學(xué)研究。對于年收入不超過100萬美元的初創(chuàng)公司、中小型企業(yè)和創(chuàng)作者,也可以免費(fèi)將該模型用于商業(yè)用途。保留生成媒體的所有權(quán),無需受到限制性許可的影響。

Stable Diffusion3.5模型已經(jīng)在Hugging Face上可供自托管使用,并且推理代碼也已經(jīng)開源。此外,還可以通過Stability AI API、Replicate、ComfyUI和DeepInfra等平臺訪問該模型。

體驗(yàn)地址:https://huggingface.co/spaces/stabilityai/stable-diffusion-3.5-large