Stable Diffusion

Stable diffusion to metoda generująca obrazki na podstawie tekstu, wpisuje się w trend generativeAI.

Architektura sieci składa się z 3 głównych komponentów (modeli):

model embeddujący tekst (oryginalnie CLIP)
image information creator (właściwy proces dyfuzji)
model zamieniający embedding obrazka w prawdziwy obrazek (dekoder obcięty z autoencodera)

Diffusion

Proces dyfuzji składa się z w kółko wykonywanego jednego kroku: mamy model (UNet) do którego wchodzi embedding obrazka z kroku poprzedniego + embedding tekstu, w wyniku czego mamy kolejny embedding obrazka. Wynikowy embedding reprezentuje odszumioną wersję embeddingu wejściowego. Zauważ, że diffusion działa na embeddingach, a nie obrazkach

Quartz 4

Explorer

Stable Diffusion

Diffusion

Graph View