<EbeneX/>
Bild-KI Architektur · Updated 3. März 2026

Diffusionsmodell

Definition

Eine generative KI-Architektur, die Bilder erzeugt, indem sie schrittweise Rauschen entfernt – die Technologie hinter Stable Diffusion, DALL-E und Midjourney.

Experte 2 Min. Lesezeit EN: Diffusion Model

Einfach erklärt

Diffusionsmodelle sind die Technologie hinter Stable Diffusion, DALL-E 3 und Midjourney. Sie haben 2022 GANs als Standard für Bildgenerierung abgelöst, weil sie stabiler trainierbar sind, vielfältigere Ausgaben produzieren und sich besser durch Text-Prompts steuern lassen. Das Grundprinzip: Das Modell lernt, schrittweise Rauschen aus einem Bild zu entfernen – und kann damit aus reinem Rauschen neue Bilder generieren. Der Vorteil gegenüber GANs: Training ist stabiler, die Ausgaben sind vielfältiger und die Qualität ist konsistenter. Der Nachteil: Bildgenerierung erfordert viele Denoising-Schritte und ist langsamer. Techniken wie DDIM und Consistency Models reduzieren die benötigten Schritte erheblich.

Diffusionsmodelle erzeugen Bilder in einem zweistufigen Prozess:

1. Forward Process (Training): Einem echten Bild wird schrittweise Rauschen hinzugefügt, bis nur noch zufälliges Rauschen übrig ist.

2. Reverse Process (Generierung): Das Modell lernt, diesen Prozess umzukehren – es entfernt Schritt für Schritt das Rauschen und erzeugt so ein neues Bild.

Rauschen ──→ Schritt 1 ──→ Schritt 2 ──→ ... ──→ Fertiges Bild
(zufällig)   (grobe Form)  (Details)              (hochwertig)

Text-Steuerung: Durch Conditioning mit Text-Embeddings (z.B. von CLIP) kann das Modell gesteuert werden: “Ein Astronaut reitet auf einem Pferd” → das Modell erzeugt genau dieses Bild.

Technischer Deep Dive

Mathematische Grundlage

Forward Process: q(x_t | x_(t-1)) = N(x_t; √(1-β_t) · x_(t-1), β_t · I)

Schrittweise wird Gausssches Rauschen hinzugefügt mit Schedule β_t.

Reverse Process: Das Modell (U-Net oder Transformer) lernt p_θ(x_(t-1) | x_t) – die Umkehrung des Rauschprozesses.

Architektur

Optimierungen

  • Latent Diffusion: Arbeitet im komprimierten Latent Space statt im Pixel-Space (100x effizienter)
  • Classifier-Free Guidance: Steuert, wie stark der Text die Generierung beeinflusst
  • DDIM/DPM-Solver: Schnellere Sampling-Methoden mit weniger Schritten
  • LoRA: Effizientes Fine-Tuning für eigene Stile und Konzepte

Ein Diffusionsmodell arbeitet wie ein Bildhauer: Es startet mit einem Block aus purem Rauschen (Marmor) und meißelt Schritt für Schritt ein Bild heraus, indem es das Rauschen gezielt entfernt.

Generiert Bilder durch schrittweises Entfernen von Rauschen (Denoising)

Grundlage für Stable Diffusion, DALL-E 3, Midjourney und Imagen

Erzeugt hochwertigere und vielfältigere Bilder als GANs

Text-to-Image

Generierung von Bildern aus Textbeschreibungen (Stable Diffusion, DALL-E)

Image-to-Image

Transformation bestehender Bilder (Stil ändern, Inpainting, Upscaling)

Video-Generierung

Erstellung von Videos aus Text (Sora, Runway)

3D-Generierung

Erstellung von 3D-Modellen und Texturen aus Beschreibungen

Wie unterscheiden sich Diffusionsmodelle von GANs?

GANs nutzen zwei konkurrierende Netze (Generator vs. Discriminator). Diffusionsmodelle lernen, Rauschen zu entfernen. Diffusionsmodelle sind stabiler im Training, erzeugen vielfältigere Bilder und haben GANs in der Bildqualität weitgehend überholt.

Warum ist die Bildgenerierung langsam?

Diffusionsmodelle brauchen viele Schritte (20-50+), um ein Bild zu erzeugen. Jeder Schritt ist ein Forward Pass durch ein großes neuronales Netz. Optimierungen wie SDXL Turbo und LCM reduzieren die Schritte auf 1-4.

Kann man Diffusionsmodelle lokal betreiben?

Ja, Stable Diffusion läuft auf Consumer-GPUs mit 8+ GB VRAM. Optimierungen wie FP16 und xFormers reduzieren den Speicherbedarf. Auf Apple Silicon funktioniert es über Core ML.

Dein persönliches Share-Bild für Instagram – 1080×1080px, bereit zum Posten.