<EbeneX/>
Praxis LLM · Updated 3. März 2026

Whisper

Definition

OpenAIs Open-Source Spracherkennungsmodell – wandelt gesprochene Sprache in Text um, unterstützt 99 Sprachen und funktioniert auch lokal.

Einsteiger 3 Min. Lesezeit EN: Whisper

Einfach erklärt

Whisper ist OpenAIs Open-Source-Modell für automatische Spracherkennung (ASR – Automatic Speech Recognition). Es wurde auf 680.000 Stunden mehrsprachiger Audio-Daten trainiert und unterstützt 99 Sprachen. Das Besondere: Whisper ist nicht nur für Englisch optimiert, sondern liefert auch für Deutsch, Spanisch und viele andere Sprachen sehr gute Ergebnisse – und kann automatisch zwischen Sprachen wechseln. Whisper ist Open Source und kann lokal betrieben werden – ideal für datenschutzsensible Anwendungen, bei denen Audio nicht in die Cloud gesendet werden darf. Verschiedene Modellgrößen (tiny bis large-v3) ermöglichen den Einsatz von Edge-Geräten bis zu Hochleistungsservern.

Whisper ist OpenAIs Spracherkennungs-Modell – es wandelt gesprochene Sprache in Text um. Das Besondere: Es ist Open Source und funktioniert in 99 Sprachen.

Was kann Whisper?

  • Transkription: Audio → Text in der gleichen Sprache
  • Übersetzung: Audio in beliebiger Sprache → Englischer Text
  • Spracherkennung: Automatisch erkennen, welche Sprache gesprochen wird
  • Zeitstempel: Wann wurde was gesagt?

Beispiel:

[Audio: "Künstliche Intelligenz verändert die Welt"]
  → Whisper
  → "Künstliche Intelligenz verändert die Welt."

Welches Modell wählen?

ModellGrößeQualitätGeschwindigkeit
tiny39 MBOkaySehr schnell
small244 MBGutSchnell
medium769 MBSehr gutMittel
large-v31.5 GBExzellentLangsam

Für die meisten Anwendungen ist medium ein guter Kompromiss. Für beste Qualität: large-v3.

Technischer Deep Dive

Architektur

Whisper nutzt einen Encoder-Decoder Transformer:

  1. Audio → Mel-Spektrogramm: Audio in visuelle Frequenz-Darstellung
  2. Encoder: Verarbeitet das Spektrogramm
  3. Decoder: Generiert Text Token für Token

Modellgrößen

ModellParameterVRAMGeschwindigkeit
tiny39M~1GBSehr schnell
base74M~1GBSchnell
small244M~2GBGut
medium769M~5GBLangsamer
large-v31.5B~10GBAm genauesten

Features

  • Transkription: Sprache → Text (gleiche Sprache)
  • Übersetzung: Sprache → Englischer Text
  • Spracherkennung: Automatisch die gesprochene Sprache erkennen
  • Timestamps: Wort- oder Segment-Level Zeitstempel

Lokale Installation

# Standard Whisper
pip install openai-whisper
whisper meeting.mp3 --model medium --language German

# Faster Whisper (4x schneller)
pip install faster-whisper
from faster_whisper import WhisperModel

model = WhisperModel("medium", device="cuda")
segments, info = model.transcribe("audio.mp3", language="de")

for segment in segments:
    print(f"[{segment.start:.2f}s] {segment.text}")

Optimierungen

Geschwindigkeit:

  • Faster Whisper statt Original (4x schneller)
  • Kleineres Modell (small statt large)
  • GPU statt CPU
  • VAD (Voice Activity Detection) zum Filtern von Stille

Qualität:

  • Größeres Modell (large-v3)
  • --initial_prompt mit Kontext/Fachbegriffen
  • Nachbearbeitung mit LLM für Satzzeichen/Formatierung

Whisper vs. Alternativen

ModellQualitätGeschwindigkeitLokal?Kosten
Whisper large-v3Sehr hochLangsamJaKostenlos
Faster WhisperSehr hochSchnellJaKostenlos
OpenAI Whisper APISehr hochSchnellNein$0.006/min
Google Speech-to-TextHochSchnellNein$0.016/min
AssemblyAISehr hochSchnellNein$0.015/min

Whisper ist wie ein perfekter Simultandolmetscher, der jede Sprache versteht und in Echtzeit mitschreibt – inklusive Satzzeichen und Absätzen.

Speech-to-Text: Sprache in Text umwandeln mit hoher Genauigkeit

Multilingual: 99 Sprachen, automatische Spracherkennung

Open Source: Lokal ausführbar, verschiedene Modellgrößen (tiny bis large)

Transkription

Meetings, Podcasts, Interviews automatisch in Text umwandeln

Untertitel

Automatische Untertitel für Videos in beliebigen Sprachen

Voice Interfaces

Spracheingabe für KI-Assistenten und Chatbots

Barrierefreiheit

Echtzeit-Untertitel für Gehörlose und Schwerhörige

Wie genau ist Whisper?

Whisper large-v3 erreicht nahezu menschliche Genauigkeit bei klarer Sprache. Bei Hintergrundgeräuschen, Akzenten oder Fachbegriffen kann die Qualität variieren.

Kann Whisper in Echtzeit transkribieren?

Whisper selbst arbeitet auf Audio-Segmenten (30 Sekunden). Mit Streaming-Wrappern (whisper-streaming) ist Near-Realtime möglich, aber nicht echte Echtzeit.

Wie installiere ich Whisper lokal?

`pip install openai-whisper` und dann `whisper audio.mp3 --model medium --language German`. Für schnellere Inferenz: `pip install faster-whisper` nutzt CTranslate2 und ist 4x schneller bei gleichem Ergebnis.

Wie gut funktioniert Whisper mit Deutsch?

Sehr gut. Deutsch gehört zu den am besten unterstützten Sprachen. Bei klarer Aussprache erreicht large-v3 nahezu perfekte Ergebnisse. Bei Dialekten oder Fachbegriffen hilft ein Custom Vocabulary oder Nachbearbeitung.

Dein persönliches Share-Bild für Instagram – 1080×1080px, bereit zum Posten.