Text-to-Video: KI-generierte Videos aus Textbeschreibungen

ERKLÄRUNG

Einfach erklärt

Text-to-Video (T2V) generiert Videos aus Textbeschreibungen. Du schreibst, was du sehen willst, und die KI erstellt das Video – Bewegung, Kamera, Beleuchtung, alles.

Beispiel-Prompt:

"Eine Drohnenaufnahme über eine neblige Berglandschaft 
bei Sonnenaufgang. Die Kamera gleitet langsam über 
einen Bergsee, in dem sich die Berge spiegeln."

→ KI generiert ein 10-Sekunden-Video genau dieser Szene.

Aktuelle Modelle (März 2026):

Modell	Stärken	Max. Länge	Qualität
Sora	Fotorealismus, Physik	60 Sek	⭐⭐⭐⭐⭐
Runway Gen-3	Kreative Kontrolle	15 Sek	⭐⭐⭐⭐
Pika 2.0	Schnell, zugänglich	10 Sek	⭐⭐⭐⭐
Kling	Bewegung, Action	30 Sek	⭐⭐⭐⭐
Veo 2	Google, multimodal	20 Sek	⭐⭐⭐⭐

Was funktioniert gut:

Landschaften und Natur
Abstrakte und künstlerische Szenen
Einfache Bewegungen
Atmosphärische Aufnahmen

Was noch schwierig ist:

Konsistente Charaktere über Zeit
Realistische Physik (Wasser, Stoff)
Text im Video
Komplexe Interaktionen

Technischer Deep Dive

Wie funktioniert T2V?

Architektur (vereinfacht):

Text-Prompt
    │
    ▼
┌─────────────────┐
│ Text Encoder    │ (CLIP, T5)
│ → Embeddings    │
└────────┬────────┘
         │
         ▼
┌─────────────────┐
│ Diffusion Model │
│ (3D U-Net oder  │
│  Transformer)   │
└────────┬────────┘
         │
         ▼
┌─────────────────┐
│ Video Decoder   │
│ → Frames        │
└─────────────────┘

Sora’s Ansatz (Diffusion Transformer):

Videos als “Patches” in Raum und Zeit
Transformer statt U-Net
Trainiert auf Millionen Videos
Versteht 3D-Konsistenz und Physik

Prompt Engineering für T2V

Struktur eines guten Prompts:

[Kamera] + [Subjekt] + [Aktion] + [Setting] + [Stil] + [Atmosphäre]

"Dolly shot of a golden retriever running through 
a wheat field at golden hour, cinematic, 
shallow depth of field, warm tones"

Kamera-Begriffe:

Dolly, Tracking, Pan, Tilt, Zoom
Drone shot, Aerial, POV
Close-up, Wide shot, Medium shot
Slow motion, Time-lapse

Stil-Begriffe:

Cinematic, Documentary, Music video
35mm film, Anamorphic
Studio lighting, Natural light
Color graded, Desaturated

Kontroll-Mechanismen

Image-to-Video:

Eingabe: Startbild + Prompt
Ausgabe: Video, das mit dem Bild beginnt

Video-to-Video:

Eingabe: Referenzvideo + Stil-Prompt
Ausgabe: Transformiertes Video

Motion Control:

Eingabe: Prompt + Bewegungspfad
Ausgabe: Video mit kontrollierter Kamerabewegung

Character Consistency:

Eingabe: Referenzbilder eines Charakters + Prompt
Ausgabe: Video mit konsistentem Charakter

Limitationen & Workarounds

Problem	Workaround
Kurze Clips	Clips aneinanderreihen, Übergänge glätten
Inkonsistente Charaktere	Character Reference, mehrere Takes
Physik-Fehler	Mehrere Generierungen, beste wählen
Text im Video	Nachträglich in Post-Production
Spezifische Bewegungen	Motion Control, Keyframes

Workflow für Produktion

1. Konzept & Storyboard
   └── Text-Prompts für jede Szene

2. Generierung
   └── Mehrere Varianten pro Szene
   └── Beste auswählen

3. Post-Production
   └── Schnitt in Premiere/DaVinci
   └── Color Grading
   └── Audio hinzufügen
   └── VFX-Korrekturen

4. Finalisierung
   └── Export in gewünschtem Format

Kosten & Geschwindigkeit

Modell	Kosten (ca.)	Generierungszeit
Sora	$0.50-2/Video	2-5 Min
Runway	$0.25-1/Video	1-3 Min
Pika	$0.10-0.50/Video	30 Sek - 2 Min

Ethik & Rechtliches

Deepfakes: T2V kann für Desinformation missbraucht werden
Copyright: Trainingsdaten-Fragen ungeklärt
Kennzeichnung: KI-generierte Videos sollten markiert werden
Consent: Keine echten Personen ohne Erlaubnis generieren

ANALOGIE

Text-to-Video ist wie ein Regisseur, der dein Drehbuch liest und sofort einen Film dreht – ohne Kamera, Schauspieler oder Set. Du beschreibst die Szene, die KI erschafft sie.

WICHTIGSTE PUNKTE

Generiert Videos aus natürlichsprachlichen Beschreibungen

Aktuelle Modelle: Sora, Runway Gen-3, Pika, Kling

Herausforderungen: Konsistenz, Physik, längere Clips

ANWENDUNGSFÄLLE

Marketing & Werbung

Schnelle Erstellung von Werbe-Clips und Social-Media-Content

Prototyping

Konzeptvideos für Pitches ohne Produktionsaufwand

Content Creation

YouTube-Intros, Erklärvideos, B-Roll-Material

Film & Entertainment

Previsualisierung, Storyboard-Animation, VFX-Konzepte

HÄUFIGE FRAGEN

Wie lang können generierte Videos sein?

Stand 2026: Sora bis 60 Sekunden, andere 4-15 Sekunden. Längere Videos werden durch Aneinanderreihen erstellt, was Konsistenz-Probleme verursachen kann.

Wie realistisch sind die Videos?

Sehr beeindruckend, aber nicht perfekt. Probleme: Physik (Objekte durchdringen sich), Hände, Text im Video, konsistente Charaktere über längere Zeit.

Kann ich eigene Charaktere/Stile verwenden?

Zunehmend ja. Image-to-Video, Character Reference und Style Transfer ermöglichen mehr Kontrolle. ControlNet-ähnliche Ansätze kommen.

Ersetzt T2V Videoproduktion?

Nicht vollständig, aber ergänzt sie stark. Gut für Konzepte, B-Roll, Social Content. Für Spielfilme noch nicht ausreichend konsistent.

TOOLS & RESSOURCEN

OpenAI Sora

Führendes T2V-Modell mit bis zu 60 Sekunden, fotorealistisch

Runway Gen-3

Kreativ-fokussiert, gute Stil-Kontrolle

Pika

Schnell und zugänglich, gut für kurze Clips

Kling

Chinesisches Modell mit beeindruckender Qualität

VERWANDTE BEGRIFFE

LLM Praxis

Text-to-Image

KI-Systeme, die aus natürlichsprachlichen Beschreibungen Bilder generieren – von DALL-E über Midjourney bis Stable Diffusion.

Bild-KI Architektur

Diffusionsmodell

Eine generative KI-Architektur, die Bilder erzeugt, indem sie schrittweise Rauschen entfernt – die Technologie hinter Stable Diffusion, DALL-E und Midjourney.

Bild-KI Praxis

Stable Diffusion

Ein Open-Source Bildgenerierungsmodell, das aus Textbeschreibungen fotorealistische Bilder erzeugt – basierend auf der Diffusions-Architektur.

LLM Architektur

Multimodale KI

KI-Systeme, die mehrere Datentypen gleichzeitig verarbeiten – Text, Bilder, Audio, Video – und so ein ganzheitlicheres Verständnis der Welt entwickeln als reine Sprachmodelle.

Bild-KI Architektur

Latent Diffusion

Eine Variante von Diffusionsmodellen, die im komprimierten latenten Raum arbeitet statt auf Pixel-Ebene – die Grundlage von Stable Diffusion und deutlich effizienter.