Speech-to-Text
KI-Technologie zur automatischen Transkription von gesprochener Sprache in geschriebenen Text – von Diktaten bis Echtzeit-Untertitelung.
KI-Technologie zur Umwandlung von geschriebenem Text in natürlich klingende Sprache – von Voiceover bis Echtzeit-Assistenten.
Text-to-Speech (TTS) wandelt geschriebenen Text in gesprochene Sprache um. Moderne KI-Modelle klingen dabei so natürlich, dass sie kaum von echten Menschen zu unterscheiden sind.
Evolution von TTS:
1990er: "Hal-lo. Ich. Bin. Ein. Com-pu-ter."
→ Roboterhaft, unnatürlich
2010er: "Hallo, ich bin ein Computer."
→ Besser, aber noch erkennbar synthetisch
2024+: "Hallo! Ich bin ein Computer – und das klingt
ziemlich natürlich, oder?"
→ Emotionen, Pausen, natürliche Betonung
Aktuelle TTS-Dienste:
| Dienst | Qualität | Latenz | Voice Cloning | Preis |
|---|---|---|---|---|
| ElevenLabs | ⭐⭐⭐⭐⭐ | Niedrig | Ja | $5+/Monat |
| OpenAI TTS | ⭐⭐⭐⭐ | Niedrig | Nein | $15/1M chars |
| Azure Neural | ⭐⭐⭐⭐ | Niedrig | Ja (Custom) | $16/1M chars |
| Coqui (lokal) | ⭐⭐⭐ | Mittel | Ja | Kostenlos |
from openai import OpenAI
client = OpenAI()
response = client.audio.speech.create(
model="tts-1-hd", # oder "tts-1" für schneller
voice="nova", # alloy, echo, fable, onyx, nova, shimmer
input="Hallo, das ist ein Test der Text-to-Speech API.",
speed=1.0, # 0.25 bis 4.0
)
# Als Datei speichern
response.stream_to_file("output.mp3")
from elevenlabs import generate, set_api_key
set_api_key("YOUR_API_KEY")
audio = generate(
text="Willkommen zu unserem Podcast!",
voice="Rachel", # Oder Voice ID
model="eleven_multilingual_v2",
)
with open("output.mp3", "wb") as f:
f.write(audio)
Voice Cloning:
from elevenlabs import clone, generate
# Stimme klonen (braucht Audio-Samples)
voice = clone(
name="Meine Stimme",
files=["sample1.mp3", "sample2.mp3"],
description="Meine geklonte Stimme"
)
# Mit geklonter Stimme generieren
audio = generate(
text="Das bin ich – oder doch nicht?",
voice=voice,
)
from TTS.api import TTS
# Modell laden
tts = TTS("tts_models/de/thorsten/tacotron2-DDC")
# Text zu Audio
tts.tts_to_file(
text="Hallo, das ist lokale Sprachsynthese.",
file_path="output.wav"
)
# Mit Voice Cloning
tts = TTS("tts_models/multilingual/multi-dataset/xtts_v2")
tts.tts_to_file(
text="Das klingt wie ich!",
speaker_wav="my_voice_sample.wav",
language="de",
file_path="output.wav"
)
<speak>
Willkommen!
<break time="500ms"/>
<prosody rate="slow" pitch="+2st">
Das ist langsamer und höher.
</prosody>
<emphasis level="strong">
Das ist wichtig!
</emphasis>
<say-as interpret-as="date">2026-03-11</say-as>
</speak>
from elevenlabs import stream
# Streaming für niedrige Latenz
audio_stream = stream(
text="Dies wird in Echtzeit gestreamt...",
voice="Rachel",
)
# Direkt abspielen
from elevenlabs import play
play(audio_stream)
| Aspekt | Alte TTS | Moderne Neural TTS |
|---|---|---|
| Natürlichkeit | Roboterhaft | Menschlich |
| Emotionen | Keine | Ja |
| Pausen | Mechanisch | Natürlich |
| Betonung | Falsch | Kontextabhängig |
| Aussprache | Fehleranfällig | Sehr gut |
Text-to-Speech ist wie ein professioneller Sprecher, der jeden Text vorlesen kann – nur dass er nie müde wird, jede Sprache beherrscht und seine Stimme beliebig anpassbar ist.
Wandelt Text in natürlich klingende Sprache um
Moderne Modelle sind kaum von echten Stimmen zu unterscheiden
Voice Cloning ermöglicht individuelle Stimmen mit wenig Training
Accessibility
Screenreader für Sehbehinderte
Content Creation
Voiceover für Videos, Podcasts, Hörbücher
Voice Assistants
Siri, Alexa, Google Assistant sprechen
Call Center
Automatisierte Telefonansagen und IVR
Sehr natürlich. ElevenLabs und ähnliche sind in Blindtests oft nicht von echten Stimmen zu unterscheiden. Emotionen, Pausen, Betonung – alles wird realistisch umgesetzt.
Ja, mit Voice Cloning. ElevenLabs braucht ~1 Minute Audio, andere Dienste mehr. Qualität variiert. Ethische und rechtliche Aspekte beachten!
Cloud: Beste Qualität (ElevenLabs, OpenAI). Lokal: Coqui TTS, Piper – gut für Datenschutz, aber etwas weniger natürlich.
OpenAI: $15/1M Zeichen. ElevenLabs: Ab $5/Monat für 30k Zeichen. Lokal: Kostenlos nach Setup. Für große Mengen kann es teuer werden.