Multimodalität
Die Fähigkeit eines KI-Modells, verschiedene Datentypen wie Text, Bilder, Audio und Video gleichzeitig zu verstehen und zu verarbeiten.
KI-Systeme, die mehrere Datentypen gleichzeitig verarbeiten – Text, Bilder, Audio, Video – und so ein ganzheitlicheres Verständnis der Welt entwickeln als reine Sprachmodelle.
Multimodale KI kann mehrere Arten von Informationen gleichzeitig verarbeiten – nicht nur Text, sondern auch Bilder, Audio und Video.
Evolution der Modelle:
2020: GPT-3 → Nur Text
2023: GPT-4 → Text + Bild (Eingabe)
2024: GPT-4o → Text + Bild + Audio (Ein- und Ausgabe)
2025: Gemini 2.0 → Text + Bild + Audio + Video nativ
| Eingabe | Ausgabe | Aufgabe |
|---|---|---|
| Bild → | Text | Bildbeschreibung, OCR, Visual QA |
| Text → | Bild | Bildgenerierung (DALL-E, Stable Diffusion) |
| Audio → | Text | Transkription (Whisper) |
| Text → | Audio | Text-to-Speech, Sprachsynthese |
| Video → | Text | Videozusammenfassung |
| Bild + Text → | Text | Dokumentenanalyse, Chart-Interpretation |
1. Encoder-Fusion (GPT-4V): Separate Encoder für jede Modalität, vereint in einem gemeinsamen Embedding-Space.
2. Nativ multimodal (Gemini): Von Grund auf auf allen Modalitäten trainiert – kein nachträgliches Zusammenfügen.
3. Adapter-basiert (LLaVA): Vision Encoder + Projektion + bestehendes LLM – kostengünstiger, aber weniger tief integriert.
# GPT-4o: Bild analysieren
response = client.chat.completions.create(
model="gpt-4o",
messages=[{
"role": "user",
"content": [
{"type": "text", "text": "Was zeigt dieses Diagramm?"},
{"type": "image_url", "image_url": {"url": "https://example.com/chart.png"}}
]
}]
)
Multimodale KI ist wie ein Mensch, der gleichzeitig sieht, hört und liest: Wenn du ein Foto von einem Strand siehst und dazu Wellenrauschen hörst, verstehst du die Szene viel besser, als wenn du nur eine Textbeschreibung liest. Multimodale Modelle kombinieren genau so mehrere Sinne.
Verarbeitet Text, Bilder, Audio und Video in einem Modell
GPT-4o, Gemini und Claude sind multimodale Foundation Models
Ermöglicht Aufgaben wie Bildbeschreibung, visuelles Reasoning und Dokumentenanalyse
Dokumentenverarbeitung
PDFs, Rechnungen und Formulare verstehen – Layout, Text und Tabellen gleichzeitig
Visuelles Reasoning
Diagramme, Grafiken und Screenshots analysieren und Fragen dazu beantworten
Content-Erstellung
Aus Text Bilder generieren, Bilder beschreiben, Videos zusammenfassen
Barrierefreiheit
Automatische Bildbeschreibungen, Untertitel und Übersetzungen
Text-to-Image ist eine spezifische multimodale Aufgabe (Text rein, Bild raus). Multimodale KI ist breiter: Sie kann Bilder verstehen, beschreiben, Fragen zu Bildern beantworten, Audio transkribieren und verschiedene Modalitäten kombiniert verarbeiten.
Die meisten großen Modelle (GPT-4o, Gemini, Claude) sind mittlerweile multimodal. Aber viele Open-Source-Modelle und spezialisierte Modelle sind weiterhin rein textbasiert. Multimodalität erfordert deutlich mehr Trainingsdaten und Compute.
Video-Verständnis, Echtzeit-Audio-Konversation (GPT-4o Voice), 3D-Verständnis, Robotik-Integration und Sensorik. Google Gemini und GPT-4o unterstützen bereits Audio und Video nativ.