KI-Bilder erstellen
Von Diffusionsmodellen bis Prompt-Technik – so erstellst du professionelle KI-Bilder mit Midjourney, Flux, DALL-E und Stable Diffusion.
Wie KI-Bildgenerierung funktioniert, welche Tools 2026 führend sind und wie du mit Prompts professionelle Ergebnisse erzielst. Von Midjourney bis Flux – praxisnah erklärt.
Wie KI-Bildgenerierung funktioniert
KI-Bilder entstehen nicht durch Kopieren – das Modell hat keine Bilddatenbank, aus der es schöpft. Stattdessen lernt es statistische Muster: Wie sieht ein Hund aus? Wie fühlt sich “golden hour” visuell an? Was macht ein Foto “cinematic”?
Der Mechanismus dahinter heißt Diffusion: Das Modell lernt, aus reinem Rauschen schrittweise ein Bild zu rekonstruieren – geleitet durch deinen Text-Prompt.
Diffusionsmodelle: Der Mechanismus
Rauschen → Schritt 1 → Schritt 2 → ... → Schritt N → Bild
Training
Das Modell sieht Millionen Bilder, zu denen schrittweise Rauschen hinzugefügt wird. Es lernt, diesen Prozess umzukehren – Rauschen zu entfernen.
Inferenz (Bildgenerierung)
- Start mit reinem Rauschen (zufällige Pixel)
- Text-Prompt wird via CLIP in Vektoren umgewandelt
- Modell entfernt in ~20–50 Schritten das Rauschen, geleitet durch den Prompt
- Ergebnis: Ein Bild, das zum Prompt passt
Der Guidance Scale (CFG) steuert, wie stark der Prompt das Ergebnis beeinflusst: Niedrig = kreativ/zufällig, Hoch = prompt-treu aber manchmal übersättigt.
Die wichtigsten Tools 2026
Ungeschlagene ästhetische Qualität und Komposition. Discord- oder Web-Interface. Ab $10/Monat. Midjourney v7 ist in Entwicklung.
Präziseste Umsetzung komplexer Textbeschreibungen. Direkt in ChatGPT integriert, kostenlos via Bing Image Creator. Seit Feb. 2024 mit CAI-Tags.
Black Forest Labs. Höchste technische Qualität, 4,5 Sek./Bild. Photorealistisch mit nahezu perfekter Anatomie. Führt seit Oktober 2024 alle Benchmarks an.
Prompts schreiben: Die Formel
Ein guter Bild-Prompt folgt einer klaren Struktur:
[Motiv] + [Stil] + [Komposition] + [Beleuchtung] + [Qualität]
Beispiel: Schlechter vs. guter Prompt
Stil-Keywords
- Fotografie:
cinematic photography,DSLR,85mm lens,bokeh,golden hour - Illustration:
digital art,concept art,artstation,detailed illustration - Gemälde:
oil painting,watercolor,impressionist,brushstrokes - 3D:
3D render,octane render,unreal engine,volumetric lighting
Komposition
close-up portrait/wide angle/aerial view/eye levelrule of thirds/centered composition/symmetricalforeground blur/depth of field
Beleuchtung
golden hour/blue hour/dramatic shadowsstudio lighting/soft box/rim lightingnatural light/overcast/neon lights
Negative Prompts
Was du nicht im Bild willst, explizit ausschließen:
Negativ: blurry, low quality, distorted, deformed hands, extra fingers,
watermark, text, logo, ugly, bad anatomy, bad proportions,
duplicate, morbid, mutilated, out of frame
Negative Prompts sind genauso wichtig wie positive – besonders für Hände, Gesichter und Hintergründe.
Tool-Vergleich 2026
| Tool | Stärke | Preis | Lokal |
|---|---|---|---|
| Flux 1.1 Pro | Benchmark-Sieger, Realismus, Anatomie | ~$0.04/Bild (API) | ✓ (Open Weights) |
| Midjourney v6 | Ästhetik, Komposition, Konsistenz | $10–120/Monat | ✗ |
| DALL-E 3 | Prompt-Treue, Text im Bild, ChatGPT | ChatGPT Plus / Bing kostenlos | ✗ |
| Stable Diffusion 3.5 | Open Source, 10.5B Params, Kontrolle | Kostenlos (selbst gehostet) | ✓ |
| Imagen 3 | Text-Rendering, Google-Ökosystem | Kostenlos via ImageFX | ✗ |
| Aurora (xAI) | Realismus, Grok-Integration | Grok-Abo | ✗ |
| Ideogram 2.0 | Text in Bildern, Logos, Banner | Kostenlos / $8/Monat | ✗ |
| Adobe Firefly 3 | Creative Cloud, rechtssicher, Inpainting | CC-Abo | ✗ |
Parameter verstehen
| Parameter | Wert | Effekt |
|---|---|---|
| Guidance Scale (CFG) | 1–20 | Niedrig = kreativ, Hoch = prompt-treu |
| Steps | 20–50 | Mehr = schärfer, aber langsamer |
| Seed | Zahl | Fixiert Zufälligkeit für Reproduzierbarkeit |
| Aspect Ratio | 1:1, 16:9… | Format des Ausgabebildes |
| Strength (img2img) | 0–1 | Wie stark das Ausgangsbild verändert wird |
Fortgeschrittene Techniken
Image-to-Image (img2img)
Statt bei Rauschen zu starten, beginnt der Prozess mit einem bestehenden Bild. Nützlich für:
- Stil auf eigene Fotos übertragen
- Skizzen in realistische Bilder umwandeln
- Variationen eines bestehenden Bildes erstellen
Inpainting
Nur einen bestimmten Bereich des Bildes neu generieren – der Rest bleibt unverändert. Ideal für:
- Hände und Gesichter korrigieren
- Hintergrund austauschen
- Objekte entfernen oder hinzufügen
ControlNet
Gibt dem Modell strukturelle Vorgaben: Pose, Tiefenkarte, Kanten. Das Ergebnis folgt der Struktur, aber mit neuem Stil. Besonders nützlich für konsistente Charaktere und Produktvisualisierungen.
Rechtliche Grundlagen
- Urheberrecht: KI-generierte Bilder sind in Deutschland aktuell nicht urheberrechtlich geschützt (kein menschlicher Schöpfer) – Stand 2026
- Kommerzielle Nutzung: AGBs des jeweiligen Tools prüfen (Midjourney Pro: ✓, Free: ✗)
- Transparenzpflicht: EU AI Act schreibt vor, KI-generierte Inhalte als solche zu kennzeichnen
- Trainingsdaten: Einige Modelle wurden auf urheberrechtlich geschützten Werken trainiert – rechtlich noch ungeklärt
- Persönlichkeitsrechte: Realistische Portraits realer Personen ohne Einwilligung problematisch
Erstes professionelles KI-Bild erstellen
Erstelle in 15 Minuten ein hochwertiges KI-Bild mit strukturiertem Prompt-Aufbau.
- Midjourney oder DALL-E 4 öffnen (kostenloser Einstieg möglich)
- Basis-Prompt testen: 'a cat sitting on a windowsill' – Ergebnis beobachten
- Stil ergänzen: '...cinematic photography, golden hour lighting, shallow depth of field'
- Qualitäts-Tags hinzufügen: '...8K, photorealistic, professional photography'
- Negative Prompt setzen: 'blurry, low quality, distorted, extra limbs'
- Seed fixieren für reproduzierbare Ergebnisse und Variationen vergleichen
- Bonus: Dasselbe Motiv in 3 verschiedenen Stilen – Fotografie, Ölgemälde, Anime
Welches KI-Bildtool ist 2026 das beste?
Kommt auf den Use Case an: Flux 1.1 Pro (Black Forest Labs) führt 2026 die Benchmarks an – photorealistisch, 4,5 Sekunden pro Bild, Open Weights. Midjourney v6 für ästhetisch hochwertige, künstlerische Bilder (v7 in Entwicklung). DALL-E 3 für präzise Umsetzung von Textbeschreibungen. Stable Diffusion 3.5 für maximale Kontrolle und lokale Ausführung. Imagen 3 (Google) kostenlos über ImageFX. Adobe Firefly für rechtssichere kommerzielle Nutzung in Creative Cloud.
Darf ich KI-Bilder kommerziell nutzen?
Abhängig vom Tool und Plan: Midjourney Pro/Mega erlaubt kommerzielle Nutzung, der kostenlose Plan nicht. DALL-E 3 (OpenAI): generierte Bilder gehören dem Nutzer, kommerzielle Nutzung erlaubt. Stable Diffusion (Open Source): grundsätzlich frei, aber Basismodell-Lizenz beachten. Immer die aktuellen AGBs prüfen – sie ändern sich regelmäßig.
Wie vermeide ich verzerrte Hände und Gesichter?
Hände und Gesichter sind die häufigsten Schwachstellen. Hilft: Negative Prompts ('deformed hands, extra fingers, distorted face'), Inpainting für gezielte Korrekturen, neuere Modelle (Flux, SD 3.5) sind deutlich besser als ältere. Für Portraits: Dedicated Face-Restoration-Tools wie CodeFormer nachschalten.
Was ist der Unterschied zwischen Midjourney und Stable Diffusion?
Midjourney ist ein gehosteter Service mit proprietärem Modell – einfach zu bedienen, konsistent hochwertig, aber weniger Kontrolle und Abo-Pflicht. Stable Diffusion ist Open Source – läuft lokal, vollständige Kontrolle über Modell und Parameter, kostenlos, aber technischer Aufwand. Flux Pro ist eine starke Alternative: Open Weights, sehr hohe Qualität, lokal ausführbar.
- Diffusionsmodelle lernen Rauschen zu entfernen – kein Kopieren, sondern statistisches Neuerschaffen
- Prompt-Qualität entscheidet: Stil + Motiv + Komposition + Beleuchtung + Qualitäts-Tags
- Flux 1.1 Pro führt 2026 die Benchmarks an – Midjourney v6 für Ästhetik, DALL-E 3 für Präzision, SD 3.5 für Open-Source-Kontrolle
- Negative Prompts sind genauso wichtig wie positive – was du nicht willst, explizit ausschließen
- Kommerzielle Nutzung: AGBs prüfen – Midjourney Pro erlaubt es, kostenlose Pläne meist nicht