<EbeneX/>
LLM Praxis · Updated 18. Februar 2026

Text-to-Image

Definition

KI-Systeme, die aus natürlichsprachlichen Beschreibungen Bilder generieren – von DALL-E über Midjourney bis Stable Diffusion.

Einsteiger 2 Min. Lesezeit EN: Text-to-Image (T2I)

Einfach erklärt

Text-to-Image ist eine der beeindruckendsten Fähigkeiten moderner KI: Ein Modell bekommt eine natürlichsprachige Beschreibung und generiert daraus ein Bild – fotorealistisch, künstlerisch oder in jedem beliebigen Stil. Was 2021 noch wie Science-Fiction wirkte, ist heute Alltag: Stable Diffusion, Midjourney, DALL-E 3 und Imagen werden täglich von Millionen Menschen für Design, Marketing, Illustration und kreatives Schaffen genutzt. Die Technologie dahinter sind Diffusionsmodelle kombiniert mit Text-Encodern wie CLIP.

Text-to-Image Modelle generieren Bilder aus Textbeschreibungen. Du beschreibst, was du sehen möchtest, und die KI erstellt es – auch Szenen, die in der Realität nicht existieren.

Wie funktioniert es?

Prompt: "Ein Astronaut reitet auf einem Pferd auf dem Mars, 
        fotorealistisch, dramatische Beleuchtung"

    [Text Encoder] → Versteht die Beschreibung

    [Diffusion Model] → Generiert das Bild schrittweise

    [VAE Decoder] → Finales hochauflösendes Bild

Die großen Player:

ModellStärkeZugang
MidjourneyKünstlerische QualitätDiscord Bot
DALL-E 3Prompt-VerständnisChatGPT, API
Stable DiffusionKontrolle, Open SourceLokal, Cloud
FireflyKommerzielle SicherheitAdobe Apps

Technischer Deep Dive

Architektur (Stable Diffusion)

Text Prompt → CLIP Text Encoder → Text Embeddings

Noise → U-Net (Diffusion) ← Cross-Attention ← Text Embeddings

        Latent Image

        VAE Decoder → Finales Bild

Prompt Engineering für Bilder

Struktur eines guten Prompts:
[Subjekt] + [Stil] + [Details] + [Technische Parameter]

Beispiel:
"A cyberpunk city at night,          # Subjekt
 in the style of Blade Runner,       # Stil
 neon lights reflecting on wet streets, # Details
 8k, highly detailed, cinematic"     # Technisch

Kontrolltechniken

TechnikBeschreibung
ControlNetStruktur vorgeben (Pose, Kanten, Tiefe)
InpaintingTeile eines Bildes neu generieren
OutpaintingBild über Ränder hinaus erweitern
Image-to-ImageBestehendes Bild als Basis
Negative PromptsWas NICHT im Bild sein soll

Ethische Überlegungen

  • Deepfakes: Realistische Bilder von echten Personen
  • Urheberrecht: Training auf urheberrechtlich geschützten Bildern
  • Bias: Modelle können Stereotypen verstärken
  • Arbeitsmarkt: Auswirkungen auf Künstler und Designer

Text-to-Image ist wie ein Künstler, dem du beschreibst, was du sehen möchtest: 'Ein Astronaut reitet auf einem Pferd auf dem Mars' – und er malt es für dich, auch wenn er so etwas noch nie gesehen hat.

Generiert Bilder aus natürlichsprachlichen Prompts

Basiert meist auf Diffusionsmodellen oder Transformer-Architekturen

Revolutioniert Kreativarbeit, Design und Content-Erstellung

Konzeptkunst

Schnelle Visualisierung von Ideen für Games, Film, Werbung

Marketing

Einzigartige Bilder für Social Media und Kampagnen

Produktdesign

Prototyp-Visualisierungen und Variationen

Welches Text-to-Image Tool ist das beste?

Kommt auf den Use Case an. Midjourney für künstlerische Bilder, DALL-E 3 für Prompt-Treue und Integration, Stable Diffusion für Kontrolle und lokale Nutzung, Firefly für kommerzielle Sicherheit.

Sind KI-generierte Bilder urheberrechtlich geschützt?

Rechtlich unklar und variiert nach Land. In den USA sind rein KI-generierte Bilder oft nicht urheberrechtlich schützbar. Für kommerzielle Nutzung: Lizenzbedingungen des Tools prüfen.

Wie schreibe ich gute Prompts für Bildgenerierung?

Beschreibe: Subjekt, Stil, Beleuchtung, Perspektive, Details. Beispiel: 'A serene Japanese garden at sunset, watercolor style, soft lighting, koi pond in foreground'. Experimentiere mit Stil-Keywords.

Dein persönliches Share-Bild für Instagram – 1080×1080px, bereit zum Posten.