Inferenz
Die Anwendung eines trainierten KI-Modells auf neue Daten, um Vorhersagen oder Ausgaben zu generieren – der produktive Einsatz nach dem Training.
Eine Optimierungstechnik, bei der ein kleines Modell Tokens vorschlägt und ein großes Modell sie parallel verifiziert – für deutlich schnellere Inferenz.
Speculative Decoding beschleunigt LLM-Inferenz durch parallele Verifikation. Ein kleines, schnelles Modell schlägt mehrere Tokens vor, das große Modell prüft sie alle auf einmal.
Warum ist das schneller?
Normale Inferenz: Token für Token, jedes braucht einen vollen Forward Pass. Speculative Decoding: Mehrere Tokens werden parallel verifiziert – ein Forward Pass für viele Tokens.
Der Ablauf:
1. Draft-Modell (klein, schnell) generiert 5 Tokens: "Der Himmel ist heute blau"
2. Target-Modell (groß, langsam) prüft alle 5 parallel
3. Target akzeptiert: "Der Himmel ist heute" ✓ (4 Tokens)
4. Target lehnt ab: "blau" ✗ → generiert stattdessen "bewölkt"
5. Ergebnis: "Der Himmel ist heute bewölkt"
-> 5 Tokens mit ~2 Forward Passes statt 5
Speculative Decoding ist mathematisch äquivalent zu normalem Decoding. Die Akzeptanz-/Ablehnungs-Logik stellt sicher, dass die Ausgabeverteilung identisch bleibt.
Ein Token wird akzeptiert, wenn:
r < min(1, p_target(token) / p_draft(token))
Wobei r eine Zufallszahl ist. Tokens, die das Draft-Modell “zu optimistisch” vorschlägt, werden mit höherer Wahrscheinlichkeit abgelehnt.
| Variante | Beschreibung |
|---|---|
| Standard | Separates Draft-Modell |
| Self-Speculative | Frühe Layers als Draft |
| Medusa | Mehrere Prediction Heads |
| Lookahead | N-Gram basierte Vorhersage |
Speculative Decoding ist wie ein Assistent, der einen Entwurf schreibt, den der Chef nur noch absegnet. Statt dass der Chef jeden Satz selbst formuliert, prüft er nur, ob der Entwurf passt – das geht viel schneller.
Kleines 'Draft'-Modell generiert mehrere Tokens schnell
Großes 'Target'-Modell verifiziert alle Tokens parallel
2-3x Speedup ohne Qualitätsverlust möglich
Latenz-Reduktion
Schnellere Antwortzeiten für Chat-Anwendungen
Kosten-Optimierung
Mehr Tokens pro Sekunde bei gleicher Hardware
Batch-Verarbeitung
Höherer Durchsatz bei großen Textmengen
Typisch 1.5-3x Speedup, abhängig von der Akzeptanzrate. Wenn das Draft-Modell gut zum Target-Modell passt, werden mehr Tokens akzeptiert und der Speedup ist höher.
Nein. Die Ausgabe ist mathematisch identisch zum normalen Decoding. Das Target-Modell hat das letzte Wort – abgelehnte Tokens werden neu generiert.
Idealerweise eine kleinere Version desselben Modells (z.B. Llama-7B als Draft für Llama-70B) oder ein speziell trainiertes Draft-Modell.