Large Language Model (LLM)
Ein KI-Modell, das auf riesigen Textmengen trainiert wurde und menschenähnliche Sprache verstehen und generieren kann.
Die Fähigkeit eines KI-Modells, verschiedene Datentypen wie Text, Bilder, Audio und Video gleichzeitig zu verstehen und zu verarbeiten.
Multimodalität bedeutet, dass ein KI-Modell nicht nur Text versteht, sondern auch Bilder, Audio und Video verarbeiten kann – oft sogar gleichzeitig. GPT-5, Claude 4.6 und Gemini 3 sind prominente Beispiele: Sie können ein Bild analysieren und darüber sprechen, Code aus Screenshots extrahieren oder Diagramme interpretieren.
Die technische Herausforderung liegt darin, verschiedene Modalitäten in einen gemeinsamen Repräsentationsraum zu bringen. Bilder werden durch Vision Encoder (wie CLIP) in Vektoren umgewandelt, die das Sprachmodell dann wie Text-Tokens verarbeiten kann. Das ermöglicht echtes Cross-Modal-Reasoning: “Was zeigt dieses Diagramm, und welche Schlüsse lassen sich daraus ziehen?” Multimodale Modelle sind der aktuelle Stand der Technik und werden zunehmend zum Standard.
Modalitäten:
| Modalität | Eingabe | Ausgabe | Beispiel |
|---|---|---|---|
| Text | ✅ | ✅ | Chat, Zusammenfassung |
| Bild | ✅ | ✅ (via Diffusion) | Bildbeschreibung, DALL-E |
| Audio | ✅ | ✅ | Spracherkennung, TTS |
| Video | ✅ | ✅ (via Sora) | Videobeschreibung, Generierung |
Early Fusion: Alle Modalitäten werden früh im Modell zusammengeführt. Nativ multimodal (Gemini).
Late Fusion: Separate Encoder pro Modalität, Zusammenführung in späteren Schichten.
Cross-Modal Attention: Text- und Bild-Tokens interagieren über Cross-Attention-Schichten.
Ein multimodales Modell ist wie ein Mensch, der gleichzeitig sehen, hören und lesen kann – es versteht nicht nur Text, sondern auch Bilder, Sprache und Videos und kann zwischen diesen Modalitäten übersetzen.
Modelle können mehrere Eingabetypen verarbeiten: Text, Bilder, Audio, Video
GPT-5, Gemini 3 und Claude 4.6 sind multimodale Modelle
Ermöglicht Aufgaben wie Bildbeschreibung, visuelle Frage-Antwort und Text-zu-Bild
Bildbeschreibung
Ein Modell beschreibt den Inhalt eines Fotos in natürlicher Sprache
Visuelle Frage-Antwort
Fragen zu Bildern stellen: 'Was zeigt dieses Diagramm?'
Dokumentenanalyse
Verarbeitung von PDFs mit Text, Tabellen und Grafiken
Text-zu-Bild/Video
Generierung von Bildern (DALL-E) oder Videos (Sora) aus Textbeschreibungen
Bilder werden durch einen Vision Encoder (z.B. CLIP, SigLIP) in Embedding-Vektoren umgewandelt, die im selben Raum wie Text-Embeddings liegen. Das Modell verarbeitet dann Bild- und Text-Tokens gemeinsam.
Ja, GPT-5 kann Text, Bilder und Audio als Eingabe verarbeiten und Text sowie Audio ausgeben. Es ist 'nativ multimodal' – alle Modalitäten werden in einem einzigen Modell verarbeitet.
Text-zu-Bild (DALL-E, Midjourney) ist eine spezifische multimodale Aufgabe. Multimodalität ist breiter: Es umfasst auch Bild-zu-Text, Audio-zu-Text, Video-Verständnis und beliebige Kombinationen.