GAN (Generative Adversarial Network)
Eine generative KI-Architektur, bei der zwei neuronale Netze gegeneinander antreten – ein Generator erzeugt Daten, ein Discriminator bewertet sie.
Eine generative KI-Architektur, die Bilder erzeugt, indem sie schrittweise Rauschen entfernt – die Technologie hinter Stable Diffusion, DALL-E und Midjourney.
Diffusionsmodelle sind die Technologie hinter Stable Diffusion, DALL-E 3 und Midjourney. Sie haben 2022 GANs als Standard für Bildgenerierung abgelöst, weil sie stabiler trainierbar sind, vielfältigere Ausgaben produzieren und sich besser durch Text-Prompts steuern lassen. Das Grundprinzip: Das Modell lernt, schrittweise Rauschen aus einem Bild zu entfernen – und kann damit aus reinem Rauschen neue Bilder generieren. Der Vorteil gegenüber GANs: Training ist stabiler, die Ausgaben sind vielfältiger und die Qualität ist konsistenter. Der Nachteil: Bildgenerierung erfordert viele Denoising-Schritte und ist langsamer. Techniken wie DDIM und Consistency Models reduzieren die benötigten Schritte erheblich.
Diffusionsmodelle erzeugen Bilder in einem zweistufigen Prozess:
1. Forward Process (Training): Einem echten Bild wird schrittweise Rauschen hinzugefügt, bis nur noch zufälliges Rauschen übrig ist.
2. Reverse Process (Generierung): Das Modell lernt, diesen Prozess umzukehren – es entfernt Schritt für Schritt das Rauschen und erzeugt so ein neues Bild.
Rauschen ──→ Schritt 1 ──→ Schritt 2 ──→ ... ──→ Fertiges Bild
(zufällig) (grobe Form) (Details) (hochwertig)
Text-Steuerung: Durch Conditioning mit Text-Embeddings (z.B. von CLIP) kann das Modell gesteuert werden: “Ein Astronaut reitet auf einem Pferd” → das Modell erzeugt genau dieses Bild.
Forward Process: q(x_t | x_(t-1)) = N(x_t; √(1-β_t) · x_(t-1), β_t · I)
Schrittweise wird Gausssches Rauschen hinzugefügt mit Schedule β_t.
Reverse Process: Das Modell (U-Net oder Transformer) lernt p_θ(x_(t-1) | x_t) – die Umkehrung des Rauschprozesses.
Ein Diffusionsmodell arbeitet wie ein Bildhauer: Es startet mit einem Block aus purem Rauschen (Marmor) und meißelt Schritt für Schritt ein Bild heraus, indem es das Rauschen gezielt entfernt.
Generiert Bilder durch schrittweises Entfernen von Rauschen (Denoising)
Grundlage für Stable Diffusion, DALL-E 3, Midjourney und Imagen
Erzeugt hochwertigere und vielfältigere Bilder als GANs
Text-to-Image
Generierung von Bildern aus Textbeschreibungen (Stable Diffusion, DALL-E)
Image-to-Image
Transformation bestehender Bilder (Stil ändern, Inpainting, Upscaling)
Video-Generierung
Erstellung von Videos aus Text (Sora, Runway)
3D-Generierung
Erstellung von 3D-Modellen und Texturen aus Beschreibungen
GANs nutzen zwei konkurrierende Netze (Generator vs. Discriminator). Diffusionsmodelle lernen, Rauschen zu entfernen. Diffusionsmodelle sind stabiler im Training, erzeugen vielfältigere Bilder und haben GANs in der Bildqualität weitgehend überholt.
Diffusionsmodelle brauchen viele Schritte (20-50+), um ein Bild zu erzeugen. Jeder Schritt ist ein Forward Pass durch ein großes neuronales Netz. Optimierungen wie SDXL Turbo und LCM reduzieren die Schritte auf 1-4.
Ja, Stable Diffusion läuft auf Consumer-GPUs mit 8+ GB VRAM. Optimierungen wie FP16 und xFormers reduzieren den Speicherbedarf. Auf Apple Silicon funktioniert es über Core ML.