Multimodalität
Die Fähigkeit eines KI-Modells, verschiedene Datentypen wie Text, Bilder, Audio und Video gleichzeitig zu verstehen und zu verarbeiten.
OpenAIs Open-Source Spracherkennungsmodell – wandelt gesprochene Sprache in Text um, unterstützt 99 Sprachen und funktioniert auch lokal.
Whisper ist OpenAIs Open-Source-Modell für automatische Spracherkennung (ASR – Automatic Speech Recognition). Es wurde auf 680.000 Stunden mehrsprachiger Audio-Daten trainiert und unterstützt 99 Sprachen. Das Besondere: Whisper ist nicht nur für Englisch optimiert, sondern liefert auch für Deutsch, Spanisch und viele andere Sprachen sehr gute Ergebnisse – und kann automatisch zwischen Sprachen wechseln. Whisper ist Open Source und kann lokal betrieben werden – ideal für datenschutzsensible Anwendungen, bei denen Audio nicht in die Cloud gesendet werden darf. Verschiedene Modellgrößen (tiny bis large-v3) ermöglichen den Einsatz von Edge-Geräten bis zu Hochleistungsservern.
Whisper ist OpenAIs Spracherkennungs-Modell – es wandelt gesprochene Sprache in Text um. Das Besondere: Es ist Open Source und funktioniert in 99 Sprachen.
Was kann Whisper?
Beispiel:
[Audio: "Künstliche Intelligenz verändert die Welt"]
→ Whisper
→ "Künstliche Intelligenz verändert die Welt."
Welches Modell wählen?
| Modell | Größe | Qualität | Geschwindigkeit |
|---|---|---|---|
| tiny | 39 MB | Okay | Sehr schnell |
| small | 244 MB | Gut | Schnell |
| medium | 769 MB | Sehr gut | Mittel |
| large-v3 | 1.5 GB | Exzellent | Langsam |
Für die meisten Anwendungen ist medium ein guter Kompromiss. Für beste Qualität: large-v3.
Whisper nutzt einen Encoder-Decoder Transformer:
| Modell | Parameter | VRAM | Geschwindigkeit |
|---|---|---|---|
| tiny | 39M | ~1GB | Sehr schnell |
| base | 74M | ~1GB | Schnell |
| small | 244M | ~2GB | Gut |
| medium | 769M | ~5GB | Langsamer |
| large-v3 | 1.5B | ~10GB | Am genauesten |
# Standard Whisper
pip install openai-whisper
whisper meeting.mp3 --model medium --language German
# Faster Whisper (4x schneller)
pip install faster-whisper
from faster_whisper import WhisperModel
model = WhisperModel("medium", device="cuda")
segments, info = model.transcribe("audio.mp3", language="de")
for segment in segments:
print(f"[{segment.start:.2f}s] {segment.text}")
Geschwindigkeit:
Qualität:
--initial_prompt mit Kontext/Fachbegriffen| Modell | Qualität | Geschwindigkeit | Lokal? | Kosten |
|---|---|---|---|---|
| Whisper large-v3 | Sehr hoch | Langsam | Ja | Kostenlos |
| Faster Whisper | Sehr hoch | Schnell | Ja | Kostenlos |
| OpenAI Whisper API | Sehr hoch | Schnell | Nein | $0.006/min |
| Google Speech-to-Text | Hoch | Schnell | Nein | $0.016/min |
| AssemblyAI | Sehr hoch | Schnell | Nein | $0.015/min |
Whisper ist wie ein perfekter Simultandolmetscher, der jede Sprache versteht und in Echtzeit mitschreibt – inklusive Satzzeichen und Absätzen.
Speech-to-Text: Sprache in Text umwandeln mit hoher Genauigkeit
Multilingual: 99 Sprachen, automatische Spracherkennung
Open Source: Lokal ausführbar, verschiedene Modellgrößen (tiny bis large)
Transkription
Meetings, Podcasts, Interviews automatisch in Text umwandeln
Untertitel
Automatische Untertitel für Videos in beliebigen Sprachen
Voice Interfaces
Spracheingabe für KI-Assistenten und Chatbots
Barrierefreiheit
Echtzeit-Untertitel für Gehörlose und Schwerhörige
Whisper large-v3 erreicht nahezu menschliche Genauigkeit bei klarer Sprache. Bei Hintergrundgeräuschen, Akzenten oder Fachbegriffen kann die Qualität variieren.
Whisper selbst arbeitet auf Audio-Segmenten (30 Sekunden). Mit Streaming-Wrappern (whisper-streaming) ist Near-Realtime möglich, aber nicht echte Echtzeit.
`pip install openai-whisper` und dann `whisper audio.mp3 --model medium --language German`. Für schnellere Inferenz: `pip install faster-whisper` nutzt CTranslate2 und ist 4x schneller bei gleichem Ergebnis.
Sehr gut. Deutsch gehört zu den am besten unterstützten Sprachen. Bei klarer Aussprache erreicht large-v3 nahezu perfekte Ergebnisse. Bei Dialekten oder Fachbegriffen hilft ein Custom Vocabulary oder Nachbearbeitung.