Speculative Decoding: Schnellere LLM-Inferenz

ERKLÄRUNG

Einfach erklärt

Speculative Decoding beschleunigt LLM-Inferenz durch parallele Verifikation. Ein kleines, schnelles Modell schlägt mehrere Tokens vor, das große Modell prüft sie alle auf einmal.

Warum ist das schneller?

Normale Inferenz: Token für Token, jedes braucht einen vollen Forward Pass. Speculative Decoding: Mehrere Tokens werden parallel verifiziert – ein Forward Pass für viele Tokens.

Der Ablauf:

1. Draft-Modell (klein, schnell) generiert 5 Tokens: "Der Himmel ist heute blau"
2. Target-Modell (groß, langsam) prüft alle 5 parallel
3. Target akzeptiert: "Der Himmel ist heute" ✓ (4 Tokens)
4. Target lehnt ab: "blau" ✗ → generiert stattdessen "bewölkt"
5. Ergebnis: "Der Himmel ist heute bewölkt"
-> 5 Tokens mit ~2 Forward Passes statt 5

Technischer Deep Dive

Mathematische Garantie

Speculative Decoding ist mathematisch äquivalent zu normalem Decoding. Die Akzeptanz-/Ablehnungs-Logik stellt sicher, dass die Ausgabeverteilung identisch bleibt.

Akzeptanzkriterium

Ein Token wird akzeptiert, wenn:

r < min(1, p_target(token) / p_draft(token))

Wobei r eine Zufallszahl ist. Tokens, die das Draft-Modell “zu optimistisch” vorschlägt, werden mit höherer Wahrscheinlichkeit abgelehnt.

Varianten

Variante	Beschreibung
Standard	Separates Draft-Modell
Self-Speculative	Frühe Layers als Draft
Medusa	Mehrere Prediction Heads
Lookahead	N-Gram basierte Vorhersage

Wann lohnt es sich?

Gut: Lange Generierungen, latenz-kritische Anwendungen
Weniger gut: Sehr kurze Antworten, Batch-Größe > 1 (Parallelisierung konkurriert)

ANALOGIE

Speculative Decoding ist wie ein Assistent, der einen Entwurf schreibt, den der Chef nur noch absegnet. Statt dass der Chef jeden Satz selbst formuliert, prüft er nur, ob der Entwurf passt – das geht viel schneller.

WICHTIGSTE PUNKTE

Kleines 'Draft'-Modell generiert mehrere Tokens schnell

Großes 'Target'-Modell verifiziert alle Tokens parallel

2-3x Speedup ohne Qualitätsverlust möglich

ANWENDUNGSFÄLLE

Latenz-Reduktion

Schnellere Antwortzeiten für Chat-Anwendungen

Kosten-Optimierung

Mehr Tokens pro Sekunde bei gleicher Hardware

Batch-Verarbeitung

Höherer Durchsatz bei großen Textmengen

HÄUFIGE FRAGEN

Wie viel schneller ist Speculative Decoding?

Typisch 1.5-3x Speedup, abhängig von der Akzeptanzrate. Wenn das Draft-Modell gut zum Target-Modell passt, werden mehr Tokens akzeptiert und der Speedup ist höher.

Ändert sich die Ausgabequalität?

Nein. Die Ausgabe ist mathematisch identisch zum normalen Decoding. Das Target-Modell hat das letzte Wort – abgelehnte Tokens werden neu generiert.

Welches Draft-Modell sollte ich verwenden?

Idealerweise eine kleinere Version desselben Modells (z.B. Llama-7B als Draft für Llama-70B) oder ein speziell trainiertes Draft-Modell.

TOOLS & RESSOURCEN

vLLM

Inference-Engine mit Speculative Decoding Support

Medusa

Multi-Head Speculative Decoding Framework

VERWANDTE BEGRIFFE

Grundlagen

Inferenz

Die Anwendung eines trainierten KI-Modells auf neue Daten, um Vorhersagen oder Ausgaben zu generieren – der produktive Einsatz nach dem Training.

Architektur Praxis

Inference Optimization

Techniken, die die Ausführung von KI-Modellen schneller und günstiger machen – von KV-Cache über Batching bis Speculative Decoding.

DevOps Grundlagen

Quantisierung

Eine Optimierungstechnik, die die Präzision der Gewichte eines KI-Modells reduziert (z.B. von 32-Bit auf 4-Bit), um Speicherbedarf und Rechenaufwand drastisch zu senken.

LLM Grundlagen

Large Language Model (LLM)

Ein KI-Modell, das auf riesigen Textmengen trainiert wurde und menschenähnliche Sprache verstehen und generieren kann.

Grundlagen LLM

Tokens

Die kleinsten Texteinheiten, in die ein Sprachmodell Text zerlegt – Wörter, Wortteile oder einzelne Zeichen, die das Modell verarbeiten kann.