Praxis & Anwendung · 20. Februar 2026

KI-Bilder erstellen

Von Diffusionsmodellen bis Prompt-Technik – so erstellst du professionelle KI-Bilder mit Midjourney, Flux, DALL-E und Stable Diffusion.

Über diesen Guide

Wie KI-Bildgenerierung funktioniert, welche Tools 2026 führend sind und wie du mit Prompts professionelle Ergebnisse erzielst. Von Midjourney bis Flux – praxisnah erklärt.

Einsteiger 12 Min. Lesezeit

Voraussetzungen: Diffusionsmodell Prompt Engineering Grundlagen

LERNZIELE

Verstehen, wie Diffusionsmodelle Bilder aus Text generieren

Die wichtigsten Tools (Midjourney v6, Flux 1.1 Pro, DALL-E 3, Stable Diffusion 3.5, Imagen 3) einordnen und vergleichen können

Effektive Bild-Prompts schreiben – Stil, Komposition, Beleuchtung, Qualitätsparameter

Negative Prompts, Seeds und Guidance Scale gezielt einsetzen

Rechtliche Grundlagen: Urheberrecht, kommerzielle Nutzung, Transparenzpflichten

INHALT

Wie KI-Bildgenerierung funktioniert

KI-Bilder entstehen nicht durch Kopieren – das Modell hat keine Bilddatenbank, aus der es schöpft. Stattdessen lernt es statistische Muster: Wie sieht ein Hund aus? Wie fühlt sich “golden hour” visuell an? Was macht ein Foto “cinematic”?

Der Mechanismus dahinter heißt Diffusion: Das Modell lernt, aus reinem Rauschen schrittweise ein Bild zu rekonstruieren – geleitet durch deinen Text-Prompt.

Diffusionsmodelle: Der Mechanismus

Rauschen → Schritt 1 → Schritt 2 → ... → Schritt N → Bild

Training

Das Modell sieht Millionen Bilder, zu denen schrittweise Rauschen hinzugefügt wird. Es lernt, diesen Prozess umzukehren – Rauschen zu entfernen.

Inferenz (Bildgenerierung)

Start mit reinem Rauschen (zufällige Pixel)
Text-Prompt wird via CLIP in Vektoren umgewandelt
Modell entfernt in ~20–50 Schritten das Rauschen, geleitet durch den Prompt
Ergebnis: Ein Bild, das zum Prompt passt

Der Guidance Scale (CFG) steuert, wie stark der Prompt das Ergebnis beeinflusst: Niedrig = kreativ/zufällig, Hoch = prompt-treu aber manchmal übersättigt.

Die wichtigsten Tools 2026

Midjourney v6Beste Ästhetik

Ungeschlagene ästhetische Qualität und Komposition. Discord- oder Web-Interface. Ab $10/Monat. Midjourney v7 ist in Entwicklung.

Stärken

ÄsthetikKompositionKonsistenz

DALL-E 3Beste Prompt-Treue

Präziseste Umsetzung komplexer Textbeschreibungen. Direkt in ChatGPT integriert, kostenlos via Bing Image Creator. Seit Feb. 2024 mit CAI-Tags.

Stärken

Prompt-TreueText im BildChatGPT

Flux 1.1 ProBenchmark-Sieger 2026

Black Forest Labs. Höchste technische Qualität, 4,5 Sek./Bild. Photorealistisch mit nahezu perfekter Anatomie. Führt seit Oktober 2024 alle Benchmarks an.

Stärken

QualitätGeschwindigkeitRealismus

Prompts schreiben: Die Formel

Ein guter Bild-Prompt folgt einer klaren Struktur:

[Motiv] + [Stil] + [Komposition] + [Beleuchtung] + [Qualität]

Beispiel: Schlechter vs. guter Prompt

„Ein Mann im Büro”

„A professional man in a modern office, business casual, shallow depth of field, natural window light, confident expression, Sony A7 IV, 85mm portrait lens, photorealistic, 8K”

Stil-Keywords

Fotografie: cinematic photography, DSLR, 85mm lens, bokeh, golden hour
Illustration: digital art, concept art, artstation, detailed illustration
Gemälde: oil painting, watercolor, impressionist, brushstrokes
3D: 3D render, octane render, unreal engine, volumetric lighting

Komposition

close-up portrait / wide angle / aerial view / eye level
rule of thirds / centered composition / symmetrical
foreground blur / depth of field

Beleuchtung

golden hour / blue hour / dramatic shadows
studio lighting / soft box / rim lighting
natural light / overcast / neon lights

Negative Prompts

Was du nicht im Bild willst, explizit ausschließen:

Negativ: blurry, low quality, distorted, deformed hands, extra fingers,
         watermark, text, logo, ugly, bad anatomy, bad proportions,
         duplicate, morbid, mutilated, out of frame

Negative Prompts sind genauso wichtig wie positive – besonders für Hände, Gesichter und Hintergründe.

Tool-Vergleich 2026

Tool	Stärke	Preis	Lokal
Flux 1.1 Pro	Benchmark-Sieger, Realismus, Anatomie	~$0.04/Bild (API)	✓ (Open Weights)
Midjourney v6	Ästhetik, Komposition, Konsistenz	$10–120/Monat	✗
DALL-E 3	Prompt-Treue, Text im Bild, ChatGPT	ChatGPT Plus / Bing kostenlos	✗
Stable Diffusion 3.5	Open Source, 10.5B Params, Kontrolle	Kostenlos (selbst gehostet)	✓
Imagen 3	Text-Rendering, Google-Ökosystem	Kostenlos via ImageFX	✗
Aurora (xAI)	Realismus, Grok-Integration	Grok-Abo	✗
Ideogram 2.0	Text in Bildern, Logos, Banner	Kostenlos / $8/Monat	✗
Adobe Firefly 3	Creative Cloud, rechtssicher, Inpainting	CC-Abo	✗

Parameter verstehen

Parameter	Wert	Effekt
Guidance Scale (CFG)	1–20	Niedrig = kreativ, Hoch = prompt-treu
Steps	20–50	Mehr = schärfer, aber langsamer
Seed	Zahl	Fixiert Zufälligkeit für Reproduzierbarkeit
Aspect Ratio	1:1, 16:9…	Format des Ausgabebildes
Strength (img2img)	0–1	Wie stark das Ausgangsbild verändert wird

Fortgeschrittene Techniken

Image-to-Image (img2img)

Statt bei Rauschen zu starten, beginnt der Prozess mit einem bestehenden Bild. Nützlich für:

Stil auf eigene Fotos übertragen
Skizzen in realistische Bilder umwandeln
Variationen eines bestehenden Bildes erstellen

Inpainting

Nur einen bestimmten Bereich des Bildes neu generieren – der Rest bleibt unverändert. Ideal für:

Hände und Gesichter korrigieren
Hintergrund austauschen
Objekte entfernen oder hinzufügen

ControlNet

Gibt dem Modell strukturelle Vorgaben: Pose, Tiefenkarte, Kanten. Das Ergebnis folgt der Struktur, aber mit neuem Stil. Besonders nützlich für konsistente Charaktere und Produktvisualisierungen.

Rechtliche Grundlagen

Urheberrecht: KI-generierte Bilder sind in Deutschland aktuell nicht urheberrechtlich geschützt (kein menschlicher Schöpfer) – Stand 2026
Kommerzielle Nutzung: AGBs des jeweiligen Tools prüfen (Midjourney Pro: ✓, Free: ✗)
Transparenzpflicht: EU AI Act schreibt vor, KI-generierte Inhalte als solche zu kennzeichnen
Trainingsdaten: Einige Modelle wurden auf urheberrechtlich geschützten Werken trainiert – rechtlich noch ungeklärt
Persönlichkeitsrechte: Realistische Portraits realer Personen ohne Einwilligung problematisch

PRAKTISCHE ÜBUNG

Erstes professionelles KI-Bild erstellen

Erstelle in 15 Minuten ein hochwertiges KI-Bild mit strukturiertem Prompt-Aufbau.

Midjourney oder DALL-E 4 öffnen (kostenloser Einstieg möglich)
Basis-Prompt testen: 'a cat sitting on a windowsill' – Ergebnis beobachten
Stil ergänzen: '...cinematic photography, golden hour lighting, shallow depth of field'
Qualitäts-Tags hinzufügen: '...8K, photorealistic, professional photography'
Negative Prompt setzen: 'blurry, low quality, distorted, extra limbs'
Seed fixieren für reproduzierbare Ergebnisse und Variationen vergleichen
Bonus: Dasselbe Motiv in 3 verschiedenen Stilen – Fotografie, Ölgemälde, Anime

GLOSSAR-BEGRIFFE

Diffusionsmodell Ein Modell, das Bilder durch Rauschreduzierung generiert. Stable Diffusion Ein Modell, das aus Texten fotorealistische Bilder mithilfe von Diffusion erzeugt. Latent Diffusion Diffusion im komprimierten latenten Raum statt auf Pixeln. GAN (Generative Adversarial Network) Zwei neuronale Netze konkurrieren zur Datengenerierung. CLIP OpenAI-Modell, das Text und Bilder in einem gemeinsamen Vektorraum verbindet. Vision Transformer (ViT) Transformer-Modell für Bildverarbeitung ohne CNNs. Multimodalität KI-Modell versteht verschiedene Datentypen gleichzeitig. Latent Space Ein Raum, in dem Modelle wesentliche Merkmale von Daten kodieren. Embeddings Vektoren, die semantische Bedeutung in hochdimensionalen Räumen abbilden. Prompt Engineering Die Technik, Anweisungen für KI-Modelle optimal zu gestalten.

HÄUFIGE FRAGEN

Welches KI-Bildtool ist 2026 das beste?

Kommt auf den Use Case an: Flux 1.1 Pro (Black Forest Labs) führt 2026 die Benchmarks an – photorealistisch, 4,5 Sekunden pro Bild, Open Weights. Midjourney v6 für ästhetisch hochwertige, künstlerische Bilder (v7 in Entwicklung). DALL-E 3 für präzise Umsetzung von Textbeschreibungen. Stable Diffusion 3.5 für maximale Kontrolle und lokale Ausführung. Imagen 3 (Google) kostenlos über ImageFX. Adobe Firefly für rechtssichere kommerzielle Nutzung in Creative Cloud.

Darf ich KI-Bilder kommerziell nutzen?

Abhängig vom Tool und Plan: Midjourney Pro/Mega erlaubt kommerzielle Nutzung, der kostenlose Plan nicht. DALL-E 3 (OpenAI): generierte Bilder gehören dem Nutzer, kommerzielle Nutzung erlaubt. Stable Diffusion (Open Source): grundsätzlich frei, aber Basismodell-Lizenz beachten. Immer die aktuellen AGBs prüfen – sie ändern sich regelmäßig.

Wie vermeide ich verzerrte Hände und Gesichter?

Hände und Gesichter sind die häufigsten Schwachstellen. Hilft: Negative Prompts ('deformed hands, extra fingers, distorted face'), Inpainting für gezielte Korrekturen, neuere Modelle (Flux, SD 3.5) sind deutlich besser als ältere. Für Portraits: Dedicated Face-Restoration-Tools wie CodeFormer nachschalten.

Was ist der Unterschied zwischen Midjourney und Stable Diffusion?

Midjourney ist ein gehosteter Service mit proprietärem Modell – einfach zu bedienen, konsistent hochwertig, aber weniger Kontrolle und Abo-Pflicht. Stable Diffusion ist Open Source – läuft lokal, vollständige Kontrolle über Modell und Parameter, kostenlos, aber technischer Aufwand. Flux Pro ist eine starke Alternative: Open Weights, sehr hohe Qualität, lokal ausführbar.

WICHTIGSTE ERKENNTNISSE

Diffusionsmodelle lernen Rauschen zu entfernen – kein Kopieren, sondern statistisches Neuerschaffen
Prompt-Qualität entscheidet: Stil + Motiv + Komposition + Beleuchtung + Qualitäts-Tags
Flux 1.1 Pro führt 2026 die Benchmarks an – Midjourney v6 für Ästhetik, DALL-E 3 für Präzision, SD 3.5 für Open-Source-Kontrolle
Negative Prompts sind genauso wichtig wie positive – was du nicht willst, explizit ausschließen
Kommerzielle Nutzung: AGBs prüfen – Midjourney Pro erlaubt es, kostenlose Pläne meist nicht

Zurück zu den Guides