Text-to-Image
KI-Systeme, die aus natürlichsprachlichen Beschreibungen Bilder generieren – von DALL-E über Midjourney bis Stable Diffusion.
KI-Modelle, die aus Textbeschreibungen Videos generieren – von kurzen Clips bis hin zu komplexen Szenen mit konsistenten Charakteren und Bewegungen.
Text-to-Video (T2V) generiert Videos aus Textbeschreibungen. Du schreibst, was du sehen willst, und die KI erstellt das Video – Bewegung, Kamera, Beleuchtung, alles.
Beispiel-Prompt:
"Eine Drohnenaufnahme über eine neblige Berglandschaft
bei Sonnenaufgang. Die Kamera gleitet langsam über
einen Bergsee, in dem sich die Berge spiegeln."
→ KI generiert ein 10-Sekunden-Video genau dieser Szene.
Aktuelle Modelle (März 2026):
| Modell | Stärken | Max. Länge | Qualität |
|---|---|---|---|
| Sora | Fotorealismus, Physik | 60 Sek | ⭐⭐⭐⭐⭐ |
| Runway Gen-3 | Kreative Kontrolle | 15 Sek | ⭐⭐⭐⭐ |
| Pika 2.0 | Schnell, zugänglich | 10 Sek | ⭐⭐⭐⭐ |
| Kling | Bewegung, Action | 30 Sek | ⭐⭐⭐⭐ |
| Veo 2 | Google, multimodal | 20 Sek | ⭐⭐⭐⭐ |
Was funktioniert gut:
Was noch schwierig ist:
Architektur (vereinfacht):
Text-Prompt
│
▼
┌─────────────────┐
│ Text Encoder │ (CLIP, T5)
│ → Embeddings │
└────────┬────────┘
│
▼
┌─────────────────┐
│ Diffusion Model │
│ (3D U-Net oder │
│ Transformer) │
└────────┬────────┘
│
▼
┌─────────────────┐
│ Video Decoder │
│ → Frames │
└─────────────────┘
Sora’s Ansatz (Diffusion Transformer):
Struktur eines guten Prompts:
[Kamera] + [Subjekt] + [Aktion] + [Setting] + [Stil] + [Atmosphäre]
"Dolly shot of a golden retriever running through
a wheat field at golden hour, cinematic,
shallow depth of field, warm tones"
Kamera-Begriffe:
Stil-Begriffe:
Image-to-Video:
Eingabe: Startbild + Prompt
Ausgabe: Video, das mit dem Bild beginnt
Video-to-Video:
Eingabe: Referenzvideo + Stil-Prompt
Ausgabe: Transformiertes Video
Motion Control:
Eingabe: Prompt + Bewegungspfad
Ausgabe: Video mit kontrollierter Kamerabewegung
Character Consistency:
Eingabe: Referenzbilder eines Charakters + Prompt
Ausgabe: Video mit konsistentem Charakter
| Problem | Workaround |
|---|---|
| Kurze Clips | Clips aneinanderreihen, Übergänge glätten |
| Inkonsistente Charaktere | Character Reference, mehrere Takes |
| Physik-Fehler | Mehrere Generierungen, beste wählen |
| Text im Video | Nachträglich in Post-Production |
| Spezifische Bewegungen | Motion Control, Keyframes |
1. Konzept & Storyboard
└── Text-Prompts für jede Szene
2. Generierung
└── Mehrere Varianten pro Szene
└── Beste auswählen
3. Post-Production
└── Schnitt in Premiere/DaVinci
└── Color Grading
└── Audio hinzufügen
└── VFX-Korrekturen
4. Finalisierung
└── Export in gewünschtem Format
| Modell | Kosten (ca.) | Generierungszeit |
|---|---|---|
| Sora | $0.50-2/Video | 2-5 Min |
| Runway | $0.25-1/Video | 1-3 Min |
| Pika | $0.10-0.50/Video | 30 Sek - 2 Min |
Text-to-Video ist wie ein Regisseur, der dein Drehbuch liest und sofort einen Film dreht – ohne Kamera, Schauspieler oder Set. Du beschreibst die Szene, die KI erschafft sie.
Generiert Videos aus natürlichsprachlichen Beschreibungen
Aktuelle Modelle: Sora, Runway Gen-3, Pika, Kling
Herausforderungen: Konsistenz, Physik, längere Clips
Marketing & Werbung
Schnelle Erstellung von Werbe-Clips und Social-Media-Content
Prototyping
Konzeptvideos für Pitches ohne Produktionsaufwand
Content Creation
YouTube-Intros, Erklärvideos, B-Roll-Material
Film & Entertainment
Previsualisierung, Storyboard-Animation, VFX-Konzepte
Stand 2026: Sora bis 60 Sekunden, andere 4-15 Sekunden. Längere Videos werden durch Aneinanderreihen erstellt, was Konsistenz-Probleme verursachen kann.
Sehr beeindruckend, aber nicht perfekt. Probleme: Physik (Objekte durchdringen sich), Hände, Text im Video, konsistente Charaktere über längere Zeit.
Zunehmend ja. Image-to-Video, Character Reference und Style Transfer ermöglichen mehr Kontrolle. ControlNet-ähnliche Ansätze kommen.
Nicht vollständig, aber ergänzt sie stark. Gut für Konzepte, B-Roll, Social Content. Für Spielfilme noch nicht ausreichend konsistent.