<EbeneX/>
Grundlagen LLM · Updated 11. März 2026

Text-to-Speech

Definition

KI-Technologie zur Umwandlung von geschriebenem Text in natürlich klingende Sprache – von Voiceover bis Echtzeit-Assistenten.

Fortgeschritten 3 Min. Lesezeit EN: Text-to-Speech (TTS) / Speech Synthesis

Einfach erklärt

Text-to-Speech (TTS) wandelt geschriebenen Text in gesprochene Sprache um. Moderne KI-Modelle klingen dabei so natürlich, dass sie kaum von echten Menschen zu unterscheiden sind.

Evolution von TTS:

1990er: "Hal-lo. Ich. Bin. Ein. Com-pu-ter."
        → Roboterhaft, unnatürlich

2010er: "Hallo, ich bin ein Computer."
        → Besser, aber noch erkennbar synthetisch

2024+:  "Hallo! Ich bin ein Computer – und das klingt 
         ziemlich natürlich, oder?"
        → Emotionen, Pausen, natürliche Betonung

Aktuelle TTS-Dienste:

DienstQualitätLatenzVoice CloningPreis
ElevenLabs⭐⭐⭐⭐⭐NiedrigJa$5+/Monat
OpenAI TTS⭐⭐⭐⭐NiedrigNein$15/1M chars
Azure Neural⭐⭐⭐⭐NiedrigJa (Custom)$16/1M chars
Coqui (lokal)⭐⭐⭐MittelJaKostenlos

Technischer Deep Dive

OpenAI TTS API

from openai import OpenAI

client = OpenAI()

response = client.audio.speech.create(
    model="tts-1-hd",  # oder "tts-1" für schneller
    voice="nova",  # alloy, echo, fable, onyx, nova, shimmer
    input="Hallo, das ist ein Test der Text-to-Speech API.",
    speed=1.0,  # 0.25 bis 4.0
)

# Als Datei speichern
response.stream_to_file("output.mp3")

ElevenLabs

from elevenlabs import generate, set_api_key

set_api_key("YOUR_API_KEY")

audio = generate(
    text="Willkommen zu unserem Podcast!",
    voice="Rachel",  # Oder Voice ID
    model="eleven_multilingual_v2",
)

with open("output.mp3", "wb") as f:
    f.write(audio)

Voice Cloning:

from elevenlabs import clone, generate

# Stimme klonen (braucht Audio-Samples)
voice = clone(
    name="Meine Stimme",
    files=["sample1.mp3", "sample2.mp3"],
    description="Meine geklonte Stimme"
)

# Mit geklonter Stimme generieren
audio = generate(
    text="Das bin ich – oder doch nicht?",
    voice=voice,
)

Lokale TTS mit Coqui

from TTS.api import TTS

# Modell laden
tts = TTS("tts_models/de/thorsten/tacotron2-DDC")

# Text zu Audio
tts.tts_to_file(
    text="Hallo, das ist lokale Sprachsynthese.",
    file_path="output.wav"
)

# Mit Voice Cloning
tts = TTS("tts_models/multilingual/multi-dataset/xtts_v2")
tts.tts_to_file(
    text="Das klingt wie ich!",
    speaker_wav="my_voice_sample.wav",
    language="de",
    file_path="output.wav"
)

SSML für Kontrolle

<speak>
  Willkommen! 
  <break time="500ms"/>
  
  <prosody rate="slow" pitch="+2st">
    Das ist langsamer und höher.
  </prosody>
  
  <emphasis level="strong">
    Das ist wichtig!
  </emphasis>
  
  <say-as interpret-as="date">2026-03-11</say-as>
</speak>

Streaming für Echtzeit

from elevenlabs import stream

# Streaming für niedrige Latenz
audio_stream = stream(
    text="Dies wird in Echtzeit gestreamt...",
    voice="Rachel",
)

# Direkt abspielen
from elevenlabs import play
play(audio_stream)

Qualitätsvergleich

AspektAlte TTSModerne Neural TTS
NatürlichkeitRoboterhaftMenschlich
EmotionenKeineJa
PausenMechanischNatürlich
BetonungFalschKontextabhängig
AusspracheFehleranfälligSehr gut

Ethische Aspekte

  • Consent: Stimmen nur mit Erlaubnis klonen
  • Deepfakes: Missbrauchspotenzial für Betrug
  • Kennzeichnung: KI-generierte Stimmen markieren
  • Rechtlich: Stimmen können geschützt sein

Text-to-Speech ist wie ein professioneller Sprecher, der jeden Text vorlesen kann – nur dass er nie müde wird, jede Sprache beherrscht und seine Stimme beliebig anpassbar ist.

Wandelt Text in natürlich klingende Sprache um

Moderne Modelle sind kaum von echten Stimmen zu unterscheiden

Voice Cloning ermöglicht individuelle Stimmen mit wenig Training

Accessibility

Screenreader für Sehbehinderte

Content Creation

Voiceover für Videos, Podcasts, Hörbücher

Voice Assistants

Siri, Alexa, Google Assistant sprechen

Call Center

Automatisierte Telefonansagen und IVR

Wie natürlich klingt TTS heute?

Sehr natürlich. ElevenLabs und ähnliche sind in Blindtests oft nicht von echten Stimmen zu unterscheiden. Emotionen, Pausen, Betonung – alles wird realistisch umgesetzt.

Kann ich meine eigene Stimme klonen?

Ja, mit Voice Cloning. ElevenLabs braucht ~1 Minute Audio, andere Dienste mehr. Qualität variiert. Ethische und rechtliche Aspekte beachten!

Lokal oder Cloud?

Cloud: Beste Qualität (ElevenLabs, OpenAI). Lokal: Coqui TTS, Piper – gut für Datenschutz, aber etwas weniger natürlich.

Wie teuer ist TTS?

OpenAI: $15/1M Zeichen. ElevenLabs: Ab $5/Monat für 30k Zeichen. Lokal: Kostenlos nach Setup. Für große Mengen kann es teuer werden.

Dein persönliches Share-Bild für Instagram – 1080×1080px, bereit zum Posten.