Diffusionsmodell
Eine generative KI-Architektur, die Bilder erzeugt, indem sie schrittweise Rauschen entfernt – die Technologie hinter Stable Diffusion, DALL-E und Midjourney.
KI-Systeme, die aus natürlichsprachlichen Beschreibungen Bilder generieren – von DALL-E über Midjourney bis Stable Diffusion.
Text-to-Image ist eine der beeindruckendsten Fähigkeiten moderner KI: Ein Modell bekommt eine natürlichsprachige Beschreibung und generiert daraus ein Bild – fotorealistisch, künstlerisch oder in jedem beliebigen Stil. Was 2021 noch wie Science-Fiction wirkte, ist heute Alltag: Stable Diffusion, Midjourney, DALL-E 3 und Imagen werden täglich von Millionen Menschen für Design, Marketing, Illustration und kreatives Schaffen genutzt. Die Technologie dahinter sind Diffusionsmodelle kombiniert mit Text-Encodern wie CLIP.
Text-to-Image Modelle generieren Bilder aus Textbeschreibungen. Du beschreibst, was du sehen möchtest, und die KI erstellt es – auch Szenen, die in der Realität nicht existieren.
Wie funktioniert es?
Prompt: "Ein Astronaut reitet auf einem Pferd auf dem Mars,
fotorealistisch, dramatische Beleuchtung"
↓
[Text Encoder] → Versteht die Beschreibung
↓
[Diffusion Model] → Generiert das Bild schrittweise
↓
[VAE Decoder] → Finales hochauflösendes Bild
Die großen Player:
| Modell | Stärke | Zugang |
|---|---|---|
| Midjourney | Künstlerische Qualität | Discord Bot |
| DALL-E 3 | Prompt-Verständnis | ChatGPT, API |
| Stable Diffusion | Kontrolle, Open Source | Lokal, Cloud |
| Firefly | Kommerzielle Sicherheit | Adobe Apps |
Text Prompt → CLIP Text Encoder → Text Embeddings
↓
Noise → U-Net (Diffusion) ← Cross-Attention ← Text Embeddings
↓
Latent Image
↓
VAE Decoder → Finales Bild
Struktur eines guten Prompts:
[Subjekt] + [Stil] + [Details] + [Technische Parameter]
Beispiel:
"A cyberpunk city at night, # Subjekt
in the style of Blade Runner, # Stil
neon lights reflecting on wet streets, # Details
8k, highly detailed, cinematic" # Technisch
| Technik | Beschreibung |
|---|---|
| ControlNet | Struktur vorgeben (Pose, Kanten, Tiefe) |
| Inpainting | Teile eines Bildes neu generieren |
| Outpainting | Bild über Ränder hinaus erweitern |
| Image-to-Image | Bestehendes Bild als Basis |
| Negative Prompts | Was NICHT im Bild sein soll |
Text-to-Image ist wie ein Künstler, dem du beschreibst, was du sehen möchtest: 'Ein Astronaut reitet auf einem Pferd auf dem Mars' – und er malt es für dich, auch wenn er so etwas noch nie gesehen hat.
Generiert Bilder aus natürlichsprachlichen Prompts
Basiert meist auf Diffusionsmodellen oder Transformer-Architekturen
Revolutioniert Kreativarbeit, Design und Content-Erstellung
Konzeptkunst
Schnelle Visualisierung von Ideen für Games, Film, Werbung
Marketing
Einzigartige Bilder für Social Media und Kampagnen
Produktdesign
Prototyp-Visualisierungen und Variationen
Kommt auf den Use Case an. Midjourney für künstlerische Bilder, DALL-E 3 für Prompt-Treue und Integration, Stable Diffusion für Kontrolle und lokale Nutzung, Firefly für kommerzielle Sicherheit.
Rechtlich unklar und variiert nach Land. In den USA sind rein KI-generierte Bilder oft nicht urheberrechtlich schützbar. Für kommerzielle Nutzung: Lizenzbedingungen des Tools prüfen.
Beschreibe: Subjekt, Stil, Beleuchtung, Perspektive, Details. Beispiel: 'A serene Japanese garden at sunset, watercolor style, soft lighting, koi pond in foreground'. Experimentiere mit Stil-Keywords.