<EbeneX/>
LLM Architektur · Updated 3. März 2026

Speculative Decoding

Definition

Eine Optimierungstechnik, bei der ein kleines Modell Tokens vorschlägt und ein großes Modell sie parallel verifiziert – für deutlich schnellere Inferenz.

Experte 2 Min. Lesezeit EN: Speculative Decoding

Einfach erklärt

Speculative Decoding beschleunigt LLM-Inferenz durch parallele Verifikation. Ein kleines, schnelles Modell schlägt mehrere Tokens vor, das große Modell prüft sie alle auf einmal.

Warum ist das schneller?

Normale Inferenz: Token für Token, jedes braucht einen vollen Forward Pass. Speculative Decoding: Mehrere Tokens werden parallel verifiziert – ein Forward Pass für viele Tokens.

Der Ablauf:

1. Draft-Modell (klein, schnell) generiert 5 Tokens: "Der Himmel ist heute blau"
2. Target-Modell (groß, langsam) prüft alle 5 parallel
3. Target akzeptiert: "Der Himmel ist heute" ✓ (4 Tokens)
4. Target lehnt ab: "blau" ✗ → generiert stattdessen "bewölkt"
5. Ergebnis: "Der Himmel ist heute bewölkt"
-> 5 Tokens mit ~2 Forward Passes statt 5

Technischer Deep Dive

Mathematische Garantie

Speculative Decoding ist mathematisch äquivalent zu normalem Decoding. Die Akzeptanz-/Ablehnungs-Logik stellt sicher, dass die Ausgabeverteilung identisch bleibt.

Akzeptanzkriterium

Ein Token wird akzeptiert, wenn:

r < min(1, p_target(token) / p_draft(token))

Wobei r eine Zufallszahl ist. Tokens, die das Draft-Modell “zu optimistisch” vorschlägt, werden mit höherer Wahrscheinlichkeit abgelehnt.

Varianten

VarianteBeschreibung
StandardSeparates Draft-Modell
Self-SpeculativeFrühe Layers als Draft
MedusaMehrere Prediction Heads
LookaheadN-Gram basierte Vorhersage

Wann lohnt es sich?

  • Gut: Lange Generierungen, latenz-kritische Anwendungen
  • Weniger gut: Sehr kurze Antworten, Batch-Größe > 1 (Parallelisierung konkurriert)

Speculative Decoding ist wie ein Assistent, der einen Entwurf schreibt, den der Chef nur noch absegnet. Statt dass der Chef jeden Satz selbst formuliert, prüft er nur, ob der Entwurf passt – das geht viel schneller.

Kleines 'Draft'-Modell generiert mehrere Tokens schnell

Großes 'Target'-Modell verifiziert alle Tokens parallel

2-3x Speedup ohne Qualitätsverlust möglich

Latenz-Reduktion

Schnellere Antwortzeiten für Chat-Anwendungen

Kosten-Optimierung

Mehr Tokens pro Sekunde bei gleicher Hardware

Batch-Verarbeitung

Höherer Durchsatz bei großen Textmengen

Wie viel schneller ist Speculative Decoding?

Typisch 1.5-3x Speedup, abhängig von der Akzeptanzrate. Wenn das Draft-Modell gut zum Target-Modell passt, werden mehr Tokens akzeptiert und der Speedup ist höher.

Ändert sich die Ausgabequalität?

Nein. Die Ausgabe ist mathematisch identisch zum normalen Decoding. Das Target-Modell hat das letzte Wort – abgelehnte Tokens werden neu generiert.

Welches Draft-Modell sollte ich verwenden?

Idealerweise eine kleinere Version desselben Modells (z.B. Llama-7B als Draft für Llama-70B) oder ein speziell trainiertes Draft-Modell.

Dein persönliches Share-Bild für Instagram – 1080×1080px, bereit zum Posten.