上個月,Stability AI 發布了其第三代文生圖大模型 Stable Diffusion 3。該模型展現出了超越現有文本到圖像生成系統的強大性能,為文本到圖像生成技術帶來了重大突破。
最近,Stability AI 終于發布了 Stable Diffusion 3 技術報告,幫助我們一窺 Stable Diffusion 3 背后的技術細節。報告要點如下:
眾所周知,Stable Diffusion 3 在排版和提示遵循等方面表現出色,超越了 DALL·E 3、Midjourney v6 和 Ideogram v1 等最先進的文本到圖像生成系統。其中:
與其他開放模型和封閉源系統相比,Stable Diffusion 3 在視覺美觀度、提示遵循和排版等方面表現出色。
Stable Diffusion 3 采用了重新加權的矩形流形式,以改善模型性能。與其他矩形流形式相比,它的表現更為穩定。
新的多模態擴散 Transformer(Multimodal Diffusion Transformer,MMDiT)架構使用獨立的權重集合來處理圖像和語言表示,相比于之前的版本,改善了文本理解和拼寫能力。
MMDiT 架構結合了 DiT 和矩形流(RF)形式。它使用兩個獨立的變換器來處理文本和圖像嵌入,并在注意力操作中結合兩種模態的序列。
MMDiT 架構不僅適用于文本到圖像生成,還可以擴展到多模態數據,比如視頻。
移除內存密集型的 T5 文本編碼器可以顯著減少 SD3 的內存需求,僅伴隨少量性能損失。
圖|來自 8B 整流模型的高分辨率樣本,展示了其在排版、精確的提示跟隨和空間推理,對細節的關注以及各種風格的高圖像質量方面的能力。
完整技術報告鏈接:
https://stabilityai-public-packages.s3.us-west-2.amazonaws.com/Stable+Diffusion+3+Paper.pdf
接下來,讓我們結合報告,一窺 Stable Diffusion 3 背后的技術細節。
MMDiT架構:Stable Diffusion 3背后的關鍵技術
MMDiT 架構是 Stable Diffusion 3 背后的關鍵技術之一。相比傳統的單一模態處理方法,MMDiT 架構能夠更好地處理文本和圖像之間的關系,從而實現更準確、更高質量的圖像生成。
圖|模型架構。
這一架構采用了獨立的權重集合來處理圖像和語言表示,這意味著對于文本和圖像兩種不同的輸入模態,MMDiT 分別使用不同的權重參數來進行編碼和處理,以此能夠更好地捕捉每種模態的特征和信息。
在 MMDiT 架構中,文本和圖像的表示分別通過預訓練模型進行編碼。具體地說,MMDiT 采用了三種不同的文本嵌入器(兩個 CLIP 模型和 T5 模型),以及一個改進的自動編碼模型來編碼圖像 token。這些編碼器能夠將文本和圖像輸入轉換為模型可以理解和處理的格式,為后續的圖像生成過程提供了基礎。
圖|T5 對于復雜提示非常重要,例如,涉及高度細節或較長的拼寫文本(第 2 行和第 3 行)。然而,對于大多數提示,在推理時刪除 T5 仍然可以達到具有競爭力的性能。
在模型結構上,MMDiT 架構建立在 Diffusion Transformer(DiT)的基礎上。由于文本和圖像的表示在概念上有所不同,MMDiT 使用了兩組獨立的權重參數來處理這兩種模態。這樣一來,模型能夠在文本和圖像的表示空間中分別進行操作,同時又能夠考慮到彼此之間的關聯關系,從而實現更好的信息傳遞和整合。
性能碾壓其他文生圖模型
通過與其他文本到圖像生成模型進行性能比較,Stable Diffusion 3 展現出了明顯的優勢。在視覺美感、文本遵循和排版等方面,Stable Diffusion 3 都能夠超越包括 DALL·E 3、Midjourney v6 和 Ideogram v1 在內的最先進系統。
這一優勢主要歸功于 MMDiT 架構對圖像和文本表示的獨立處理,使得模型能夠更好地理解和表達文本提示,并生成與之匹配的高質量圖像。通過人類評估者提供的例子輸出進行比較,Stable Diffusion 3 在視覺美感方面與其他模型相比表現出色。評估者被要求根據圖像的美觀程度選擇最佳結果。結果顯示,Stable Diffusion 3 在生成的圖像美觀度方面優于其他模型。
圖|這是一幅異想天開、富有創意的圖像,描繪了一種混合了華夫餅和河馬的生物。這種富有想象力的生物有著河馬獨特的、笨重的身體,但它的外觀卻像一塊金棕色的脆皮華夫餅。該生物的皮膚上有華夫餅,還有糖漿般的光澤。這設置在一個超現實的環境中,有趣地結合了河馬的自然水域棲息地和早餐餐桌,包括超大的餐具或盤子作為背景。圖像喚起一種有趣的荒誕感和烹飪幻想。
評估者根據模型輸出與所給提示的一致性來評價模型的文本遵循能力。從測試結果來看,Stable Diffusion 3 在文本遵循方面表現優異,能夠更準確地根據提示生成相應的圖像內容。
排版指的是模型生成的圖像中文本的布局、格式和外觀。根據評估者的選擇,Stable Diffusion 3 在排版方面也表現出色,能夠更好地呈現出給定提示中的文本信息,使生成的圖像更具可讀性和吸引力。
另外,在不同硬件設備上的性能表現方面,Stable Diffusion 3 也展現出了出色的靈活性。
例如,在 RTX 4090 等設備上,最大模型(8B 參數)在進行圖像生成時,可以在 34 秒內生成一幅分辨率為 1024x1024 的圖像,而且還能夠在初期預覽階段提供多種參數模型選擇,從 800m 到 8B 參數的模型規模,以進一步消除硬件方面的限制。
在消費者級硬件上,Stable Diffusion 3 依然可以有較快的推斷速度,并且資源利用率高。
此外,該技術提供了多種模型規模選擇,以滿足不同用戶和應用場景下的需求,增強了其可擴展性和適用性。
Stable Diffusion 3 的提出不僅注重了圖像生成的質量,還專注于與文本的對齊和一致性。其改進的 Prompt Following 功能使得模型能夠更好地理解輸入文本并根據其創作圖像,而不僅僅是簡單地產生圖像。這種靈活性使 Stable Diffusion 3 能夠根據不同的輸入文本生成多樣化的圖像,滿足不同主題和需求。
Stable Diffusion 3 采用了改進的 Rectified Flow(RF)方法,通過線性軌跡將數據和噪聲相連接,使得推斷路徑更直,從而在少量步驟內進行采樣。同時,Stable Diffusion 3還引入了一種新的軌跡采樣調度,將更多的權重分配給軌跡的中間部分,從而改進了預測任務的難度。這種創新的方法改善了模型的性能,并在文本到圖像生成任務中取得了更好的效果。
在文本到圖像生成領域,Stable Diffusion 3 的問世標志著技術的重大進步。通過 MMDiT 架構的創新、Rectified Flow 的優化以及對硬件設備和模型規模的靈活調整,Stable Diffusion 3 在視覺美感、文本遵循和排版等方面表現出色,超越了當前的文本到圖像生成系統。
Stable Diffusion 3 的誕生,不僅提高了生成圖像的質量和準確性,還為未來的創意產業、個性化內容生成、輔助創作工具以及增強現實和虛擬現實應用等領域帶來了新的可能性。
未來,隨著這項技術的進一步發展和普及,我們可以期待看到更多創新的應用場景和解決方案。
參考鏈接:
https://stability.ai/news/stable-diffusion-3-research-paper
下一篇:返回列表
【免責聲明】本文轉載自網絡,與科技網無關。科技網站對文中陳述、觀點判斷保持中立,不對所包含內容的準確性、可靠性或完整性提供任何明示或暗示的保證。請讀者僅作參考,并請自行承擔全部責任。