<EbeneX/>
Grundlagen LLM · Updated 11. März 2026

Text-to-Video

Definition

KI-Modelle, die aus Textbeschreibungen Videos generieren – von kurzen Clips bis hin zu komplexen Szenen mit konsistenten Charakteren und Bewegungen.

Fortgeschritten 3 Min. Lesezeit EN: Text-to-Video (T2V)

Einfach erklärt

Text-to-Video (T2V) generiert Videos aus Textbeschreibungen. Du schreibst, was du sehen willst, und die KI erstellt das Video – Bewegung, Kamera, Beleuchtung, alles.

Beispiel-Prompt:

"Eine Drohnenaufnahme über eine neblige Berglandschaft 
bei Sonnenaufgang. Die Kamera gleitet langsam über 
einen Bergsee, in dem sich die Berge spiegeln."

→ KI generiert ein 10-Sekunden-Video genau dieser Szene.

Aktuelle Modelle (März 2026):

ModellStärkenMax. LängeQualität
SoraFotorealismus, Physik60 Sek⭐⭐⭐⭐⭐
Runway Gen-3Kreative Kontrolle15 Sek⭐⭐⭐⭐
Pika 2.0Schnell, zugänglich10 Sek⭐⭐⭐⭐
KlingBewegung, Action30 Sek⭐⭐⭐⭐
Veo 2Google, multimodal20 Sek⭐⭐⭐⭐

Was funktioniert gut:

  • Landschaften und Natur
  • Abstrakte und künstlerische Szenen
  • Einfache Bewegungen
  • Atmosphärische Aufnahmen

Was noch schwierig ist:

  • Konsistente Charaktere über Zeit
  • Realistische Physik (Wasser, Stoff)
  • Text im Video
  • Komplexe Interaktionen

Technischer Deep Dive

Wie funktioniert T2V?

Architektur (vereinfacht):

Text-Prompt


┌─────────────────┐
│ Text Encoder    │ (CLIP, T5)
│ → Embeddings    │
└────────┬────────┘


┌─────────────────┐
│ Diffusion Model │
│ (3D U-Net oder  │
│  Transformer)   │
└────────┬────────┘


┌─────────────────┐
│ Video Decoder   │
│ → Frames        │
└─────────────────┘

Sora’s Ansatz (Diffusion Transformer):

  • Videos als “Patches” in Raum und Zeit
  • Transformer statt U-Net
  • Trainiert auf Millionen Videos
  • Versteht 3D-Konsistenz und Physik

Prompt Engineering für T2V

Struktur eines guten Prompts:

[Kamera] + [Subjekt] + [Aktion] + [Setting] + [Stil] + [Atmosphäre]

"Dolly shot of a golden retriever running through 
a wheat field at golden hour, cinematic, 
shallow depth of field, warm tones"

Kamera-Begriffe:

  • Dolly, Tracking, Pan, Tilt, Zoom
  • Drone shot, Aerial, POV
  • Close-up, Wide shot, Medium shot
  • Slow motion, Time-lapse

Stil-Begriffe:

  • Cinematic, Documentary, Music video
  • 35mm film, Anamorphic
  • Studio lighting, Natural light
  • Color graded, Desaturated

Kontroll-Mechanismen

Image-to-Video:

Eingabe: Startbild + Prompt
Ausgabe: Video, das mit dem Bild beginnt

Video-to-Video:

Eingabe: Referenzvideo + Stil-Prompt
Ausgabe: Transformiertes Video

Motion Control:

Eingabe: Prompt + Bewegungspfad
Ausgabe: Video mit kontrollierter Kamerabewegung

Character Consistency:

Eingabe: Referenzbilder eines Charakters + Prompt
Ausgabe: Video mit konsistentem Charakter

Limitationen & Workarounds

ProblemWorkaround
Kurze ClipsClips aneinanderreihen, Übergänge glätten
Inkonsistente CharaktereCharacter Reference, mehrere Takes
Physik-FehlerMehrere Generierungen, beste wählen
Text im VideoNachträglich in Post-Production
Spezifische BewegungenMotion Control, Keyframes

Workflow für Produktion

1. Konzept & Storyboard
   └── Text-Prompts für jede Szene

2. Generierung
   └── Mehrere Varianten pro Szene
   └── Beste auswählen

3. Post-Production
   └── Schnitt in Premiere/DaVinci
   └── Color Grading
   └── Audio hinzufügen
   └── VFX-Korrekturen

4. Finalisierung
   └── Export in gewünschtem Format

Kosten & Geschwindigkeit

ModellKosten (ca.)Generierungszeit
Sora$0.50-2/Video2-5 Min
Runway$0.25-1/Video1-3 Min
Pika$0.10-0.50/Video30 Sek - 2 Min

Ethik & Rechtliches

  • Deepfakes: T2V kann für Desinformation missbraucht werden
  • Copyright: Trainingsdaten-Fragen ungeklärt
  • Kennzeichnung: KI-generierte Videos sollten markiert werden
  • Consent: Keine echten Personen ohne Erlaubnis generieren

Text-to-Video ist wie ein Regisseur, der dein Drehbuch liest und sofort einen Film dreht – ohne Kamera, Schauspieler oder Set. Du beschreibst die Szene, die KI erschafft sie.

Generiert Videos aus natürlichsprachlichen Beschreibungen

Aktuelle Modelle: Sora, Runway Gen-3, Pika, Kling

Herausforderungen: Konsistenz, Physik, längere Clips

Marketing & Werbung

Schnelle Erstellung von Werbe-Clips und Social-Media-Content

Prototyping

Konzeptvideos für Pitches ohne Produktionsaufwand

Content Creation

YouTube-Intros, Erklärvideos, B-Roll-Material

Film & Entertainment

Previsualisierung, Storyboard-Animation, VFX-Konzepte

Wie lang können generierte Videos sein?

Stand 2026: Sora bis 60 Sekunden, andere 4-15 Sekunden. Längere Videos werden durch Aneinanderreihen erstellt, was Konsistenz-Probleme verursachen kann.

Wie realistisch sind die Videos?

Sehr beeindruckend, aber nicht perfekt. Probleme: Physik (Objekte durchdringen sich), Hände, Text im Video, konsistente Charaktere über längere Zeit.

Kann ich eigene Charaktere/Stile verwenden?

Zunehmend ja. Image-to-Video, Character Reference und Style Transfer ermöglichen mehr Kontrolle. ControlNet-ähnliche Ansätze kommen.

Ersetzt T2V Videoproduktion?

Nicht vollständig, aber ergänzt sie stark. Gut für Konzepte, B-Roll, Social Content. Für Spielfilme noch nicht ausreichend konsistent.

Dein persönliches Share-Bild für Instagram – 1080×1080px, bereit zum Posten.