Diffusionsmodell
Eine generative KI-Architektur, die Bilder erzeugt, indem sie schrittweise Rauschen entfernt – die Technologie hinter Stable Diffusion, DALL-E und Midjourney.
Eine Variante von Diffusionsmodellen, die im komprimierten latenten Raum arbeitet statt auf Pixel-Ebene – die Grundlage von Stable Diffusion und deutlich effizienter.
Latent Diffusion Models (LDMs) sind die Architektur hinter Stable Diffusion und dem Großteil moderner Bildgenerierungssysteme. Die entscheidende Innovation gegenüber klassischen Diffusionsmodellen: Die Diffusion findet nicht auf Pixel-Ebene statt, sondern im komprimierten latenten Raum eines Variational Autoencoders (VAE). Das macht LDMs etwa 64-mal effizienter als Pixel-Diffusion – und ermöglicht hochauflösende Bildgenerierung auf Consumer-Hardware.
Latent Diffusion ist eine effizientere Version von Diffusionsmodellen. Statt auf dem vollen Bild (512×512 Pixel) zu arbeiten, wird erst komprimiert (64×64 latent), dann diffundiert, dann wieder dekomprimiert.
Der Trick:
Normale Diffusion:
Noise (512×512) → [50 Diffusion Steps] → Bild (512×512)
= 786.432 Werte pro Step 😰
Latent Diffusion:
Noise (64×64×4) → [50 Diffusion Steps] → Latent → [VAE Decoder] → Bild
= 16.384 Werte pro Step 🚀
Ergebnis: ~50× schneller bei vergleichbarer Qualität.
Text Prompt
↓
[CLIP Text Encoder] → Text Embeddings
↓
[Cross-Attention]
↓
Noise → [U-Net in Latent Space] → Denoised Latent
↓
[VAE Decoder]
↓
Final Image
| Komponente | Funktion | Größe (SD 1.5) |
|---|---|---|
| VAE | Bild ↔ Latent Kompression | ~80MB |
| U-Net | Diffusion/Denoising | ~3.4GB |
| Text Encoder | Text → Embeddings | ~500MB |
from diffusers import StableDiffusionPipeline
pipe = StableDiffusionPipeline.from_pretrained(
"runwayml/stable-diffusion-v1-5"
)
image = pipe(
prompt="A cat wearing a space suit",
num_inference_steps=50,
guidance_scale=7.5
).images[0]
output = uncond_output + guidance_scale × (cond_output - uncond_output)
guidance_scale = 1: Ignoriert den Prompt
guidance_scale = 7-8: Guter Kompromiss
guidance_scale = 20+: Übertrieben, Artefakte
Latent Diffusion ist wie ein Architekt, der erst einen kompakten Bauplan zeichnet (latenter Raum) und diesen dann zum fertigen Gebäude (Bild) ausbaut – statt jeden einzelnen Ziegelstein (Pixel) von Anfang an zu planen.
Diffusion findet im komprimierten VAE-Latent-Raum statt
64× weniger Rechenaufwand als Pixel-Diffusion
Grundlage von Stable Diffusion, SDXL, Flux
Text-to-Image
Stable Diffusion, DALL-E 3, Midjourney
Image-to-Image
Bildbearbeitung und Stil-Transfer
Inpainting
Teile von Bildern neu generieren
Ein 512×512 Bild hat 786.432 Pixel. Der latente Raum ist nur 64×64×4 = 16.384 Werte. Die Diffusion arbeitet auf 48× weniger Daten – das macht sie viel schneller.
Latent Diffusion ist die Architektur/Technik. Stable Diffusion ist ein spezifisches Modell, das Latent Diffusion verwendet – trainiert von Stability AI auf großen Bilddatensätzen.
Minimal. Der VAE ist so trainiert, dass er die wichtigsten visuellen Informationen erhält. Die Qualität von Latent Diffusion ist vergleichbar mit Pixel-Diffusion, bei einem Bruchteil der Rechenzeit.