<EbeneX/>
LLM Grundlagen · Updated 3. März 2026

Multimodalität

Definition

Die Fähigkeit eines KI-Modells, verschiedene Datentypen wie Text, Bilder, Audio und Video gleichzeitig zu verstehen und zu verarbeiten.

Fortgeschritten 2 Min. Lesezeit EN: Multimodality

Einfach erklärt

Multimodalität bedeutet, dass ein KI-Modell nicht nur Text versteht, sondern auch Bilder, Audio und Video verarbeiten kann – oft sogar gleichzeitig. GPT-5, Claude 4.6 und Gemini 3 sind prominente Beispiele: Sie können ein Bild analysieren und darüber sprechen, Code aus Screenshots extrahieren oder Diagramme interpretieren.

Die technische Herausforderung liegt darin, verschiedene Modalitäten in einen gemeinsamen Repräsentationsraum zu bringen. Bilder werden durch Vision Encoder (wie CLIP) in Vektoren umgewandelt, die das Sprachmodell dann wie Text-Tokens verarbeiten kann. Das ermöglicht echtes Cross-Modal-Reasoning: “Was zeigt dieses Diagramm, und welche Schlüsse lassen sich daraus ziehen?” Multimodale Modelle sind der aktuelle Stand der Technik und werden zunehmend zum Standard.

Modalitäten:

ModalitätEingabeAusgabeBeispiel
TextChat, Zusammenfassung
Bild✅ (via Diffusion)Bildbeschreibung, DALL-E
AudioSpracherkennung, TTS
Video✅ (via Sora)Videobeschreibung, Generierung

Technischer Deep Dive

Architektur-Ansätze

Early Fusion: Alle Modalitäten werden früh im Modell zusammengeführt. Nativ multimodal (Gemini).

Late Fusion: Separate Encoder pro Modalität, Zusammenführung in späteren Schichten.

Cross-Modal Attention: Text- und Bild-Tokens interagieren über Cross-Attention-Schichten.

Vision Encoder

  • CLIP (OpenAI): Trainiert auf 400M Bild-Text-Paaren, verbindet Bilder und Text im selben Embedding-Raum
  • SigLIP (Google): Verbesserte CLIP-Variante mit Sigmoid-Loss
  • DINOv2 (Meta): Self-Supervised Vision Encoder ohne Text

Herausforderungen

  • Token-Budget: Bilder verbrauchen viele Tokens (ein Bild = 85-1000+ Tokens)
  • Halluzinationen: Modelle können Bildinhalte falsch beschreiben
  • Latenz: Multimodale Verarbeitung ist rechenintensiver
  • Training: Multimodale Datensätze sind aufwändiger zu erstellen

Ein multimodales Modell ist wie ein Mensch, der gleichzeitig sehen, hören und lesen kann – es versteht nicht nur Text, sondern auch Bilder, Sprache und Videos und kann zwischen diesen Modalitäten übersetzen.

Modelle können mehrere Eingabetypen verarbeiten: Text, Bilder, Audio, Video

GPT-5, Gemini 3 und Claude 4.6 sind multimodale Modelle

Ermöglicht Aufgaben wie Bildbeschreibung, visuelle Frage-Antwort und Text-zu-Bild

Bildbeschreibung

Ein Modell beschreibt den Inhalt eines Fotos in natürlicher Sprache

Visuelle Frage-Antwort

Fragen zu Bildern stellen: 'Was zeigt dieses Diagramm?'

Dokumentenanalyse

Verarbeitung von PDFs mit Text, Tabellen und Grafiken

Text-zu-Bild/Video

Generierung von Bildern (DALL-E) oder Videos (Sora) aus Textbeschreibungen

Wie versteht ein Sprachmodell Bilder?

Bilder werden durch einen Vision Encoder (z.B. CLIP, SigLIP) in Embedding-Vektoren umgewandelt, die im selben Raum wie Text-Embeddings liegen. Das Modell verarbeitet dann Bild- und Text-Tokens gemeinsam.

Ist GPT-5 wirklich multimodal?

Ja, GPT-5 kann Text, Bilder und Audio als Eingabe verarbeiten und Text sowie Audio ausgeben. Es ist 'nativ multimodal' – alle Modalitäten werden in einem einzigen Modell verarbeitet.

Was ist der Unterschied zwischen multimodal und Text-zu-Bild?

Text-zu-Bild (DALL-E, Midjourney) ist eine spezifische multimodale Aufgabe. Multimodalität ist breiter: Es umfasst auch Bild-zu-Text, Audio-zu-Text, Video-Verständnis und beliebige Kombinationen.

Dein persönliches Share-Bild für Instagram – 1080×1080px, bereit zum Posten.