<EbeneX/>
Bild-KI Architektur · Updated 3. März 2026

Latent Diffusion

Definition

Eine Variante von Diffusionsmodellen, die im komprimierten latenten Raum arbeitet statt auf Pixel-Ebene – die Grundlage von Stable Diffusion und deutlich effizienter.

Experte 2 Min. Lesezeit EN: Latent Diffusion Model (LDM)

Einfach erklärt

Latent Diffusion Models (LDMs) sind die Architektur hinter Stable Diffusion und dem Großteil moderner Bildgenerierungssysteme. Die entscheidende Innovation gegenüber klassischen Diffusionsmodellen: Die Diffusion findet nicht auf Pixel-Ebene statt, sondern im komprimierten latenten Raum eines Variational Autoencoders (VAE). Das macht LDMs etwa 64-mal effizienter als Pixel-Diffusion – und ermöglicht hochauflösende Bildgenerierung auf Consumer-Hardware.

Latent Diffusion ist eine effizientere Version von Diffusionsmodellen. Statt auf dem vollen Bild (512×512 Pixel) zu arbeiten, wird erst komprimiert (64×64 latent), dann diffundiert, dann wieder dekomprimiert.

Der Trick:

Normale Diffusion:
Noise (512×512) → [50 Diffusion Steps] → Bild (512×512)
= 786.432 Werte pro Step 😰

Latent Diffusion:
Noise (64×64×4) → [50 Diffusion Steps] → Latent → [VAE Decoder] → Bild
= 16.384 Werte pro Step 🚀

Ergebnis: ~50× schneller bei vergleichbarer Qualität.

Technischer Deep Dive

Architektur

Text Prompt

[CLIP Text Encoder] → Text Embeddings

[Cross-Attention]

Noise → [U-Net in Latent Space] → Denoised Latent

                                  [VAE Decoder]

                                   Final Image

Komponenten

KomponenteFunktionGröße (SD 1.5)
VAEBild ↔ Latent Kompression~80MB
U-NetDiffusion/Denoising~3.4GB
Text EncoderText → Embeddings~500MB

Stable Diffusion Pipeline

from diffusers import StableDiffusionPipeline

pipe = StableDiffusionPipeline.from_pretrained(
    "runwayml/stable-diffusion-v1-5"
)

image = pipe(
    prompt="A cat wearing a space suit",
    num_inference_steps=50,
    guidance_scale=7.5
).images[0]

Guidance Scale (CFG)

output = uncond_output + guidance_scale × (cond_output - uncond_output)

guidance_scale = 1: Ignoriert den Prompt
guidance_scale = 7-8: Guter Kompromiss
guidance_scale = 20+: Übertrieben, Artefakte

Vorteile von Latent Diffusion

  • Geschwindigkeit: 50× weniger Compute
  • VRAM: Läuft auf Consumer-GPUs (8GB+)
  • Qualität: Vergleichbar mit Pixel-Diffusion
  • Flexibilität: Einfache Erweiterungen (ControlNet, LoRA)

Latent Diffusion ist wie ein Architekt, der erst einen kompakten Bauplan zeichnet (latenter Raum) und diesen dann zum fertigen Gebäude (Bild) ausbaut – statt jeden einzelnen Ziegelstein (Pixel) von Anfang an zu planen.

Diffusion findet im komprimierten VAE-Latent-Raum statt

64× weniger Rechenaufwand als Pixel-Diffusion

Grundlage von Stable Diffusion, SDXL, Flux

Text-to-Image

Stable Diffusion, DALL-E 3, Midjourney

Image-to-Image

Bildbearbeitung und Stil-Transfer

Inpainting

Teile von Bildern neu generieren

Warum ist Latent Diffusion schneller als normale Diffusion?

Ein 512×512 Bild hat 786.432 Pixel. Der latente Raum ist nur 64×64×4 = 16.384 Werte. Die Diffusion arbeitet auf 48× weniger Daten – das macht sie viel schneller.

Was ist der Unterschied zwischen Stable Diffusion und Latent Diffusion?

Latent Diffusion ist die Architektur/Technik. Stable Diffusion ist ein spezifisches Modell, das Latent Diffusion verwendet – trainiert von Stability AI auf großen Bilddatensätzen.

Verliert man Qualität durch die Kompression?

Minimal. Der VAE ist so trainiert, dass er die wichtigsten visuellen Informationen erhält. Die Qualität von Latent Diffusion ist vergleichbar mit Pixel-Diffusion, bei einem Bruchteil der Rechenzeit.

Dein persönliches Share-Bild für Instagram – 1080×1080px, bereit zum Posten.