Stable diffusion to metoda generująca obrazki na podstawie tekstu, wpisuje się w trend generativeAI.
Architektura sieci składa się z 3 głównych komponentów (modeli):
- model embeddujący tekst (oryginalnie CLIP)
- image information creator (właściwy proces dyfuzji)
- model zamieniający embedding obrazka w prawdziwy obrazek (dekoder obcięty z autoencodera)

Diffusion
Proces dyfuzji składa się z w kółko wykonywanego jednego kroku: mamy model (UNet) do którego wchodzi embedding obrazka z kroku poprzedniego + embedding tekstu, w wyniku czego mamy kolejny embedding obrazka. Wynikowy embedding reprezentuje odszumioną wersję embeddingu wejściowego. Zauważ, że diffusion działa na embeddingach, a nie obrazkach