KV-Cache: Schnellere LLM-Inferenz durch Caching

ERKLÄRUNG

Einfach erklärt

Der KV-Cache speichert Zwischenergebnisse der Attention-Berechnung. Ohne Cache müsste das Modell bei jedem neuen Token alle vorherigen Tokens neu verarbeiten – das wäre extrem langsam.

Warum ist das wichtig?

Ohne KV-Cache (Token 100 generieren):
-> Berechne Attention für Token 1-99 neu
-> Dann Token 100
-> O(n²) Komplexität pro Token

Mit KV-Cache:
-> Keys/Values für Token 1-99 aus Cache
-> Nur Token 100 neu berechnen
-> O(n) Komplexität pro Token

Der Trade-off:

Schnellere Inferenz ↔ Mehr VRAM-Verbrauch

Der KV-Cache ist oft der Flaschenhals für lange Kontexte und große Batch-Größen.

Technischer Deep Dive

Wie Attention funktioniert

Attention(Q, K, V) = softmax(QK^T / √d) × V

Q = Query (aktuelles Token)
K = Keys (alle bisherigen Tokens)
V = Values (alle bisherigen Tokens)

Der KV-Cache speichert K und V für alle bisherigen Tokens.

Speicherverbrauch

KV-Cache-Größe = 2 × num_layers × num_heads × head_dim × seq_len × batch_size × dtype_size

Beispiel (Llama 70B, 4K Kontext, Batch 1):
= 2 × 80 × 64 × 128 × 4096 × 1 × 2 bytes
≈ 10.7 GB

Optimierungen

Technik	Beschreibung	Ersparnis
PagedAttention	Nicht-kontinuierlicher Speicher	50-90%
Quantisierung	FP16 → INT8 Cache	50%
Sliding Window	Nur letzte N Tokens cachen	Variabel
Prefix Caching	Gemeinsamer Cache für gleiche Prefixe	Variabel

vLLM PagedAttention

# vLLM verwaltet KV-Cache automatisch
from vllm import LLM

llm = LLM(model="meta-llama/Llama-2-70b-chat-hf")
# PagedAttention ist standardmäßig aktiviert

ANALOGIE

Der KV-Cache ist wie ein Notizblock beim Lesen: Statt bei jedem neuen Wort das ganze Buch nochmal zu lesen, notierst du dir die wichtigsten Punkte und schaust nur noch auf deine Notizen.

WICHTIGSTE PUNKTE

Speichert Key-Value-Paare aus vorherigen Tokens

Vermeidet redundante Berechnungen bei der Token-Generierung

Hauptgrund, warum LLM-Inferenz viel VRAM braucht

ANWENDUNGSFÄLLE

Chat-Anwendungen

Schnelle Antworten durch Caching des Konversationskontexts

Lange Kontexte

Effiziente Verarbeitung von Dokumenten mit vielen Tokens

Batch-Inferenz

Gemeinsamer Prefix-Cache für ähnliche Anfragen

HÄUFIGE FRAGEN

Warum brauchen LLMs so viel VRAM?

Der KV-Cache wächst mit der Kontextlänge und Batch-Größe. Bei 128K Tokens Kontext und großen Modellen kann der Cache mehrere GB VRAM belegen – oft mehr als die Modellgewichte selbst.

Was ist PagedAttention?

Eine Technik von vLLM, die den KV-Cache wie virtuellen Speicher verwaltet: Nicht-kontinuierliche Speicherblöcke werden effizient genutzt, was den VRAM-Bedarf um 50-90% reduzieren kann.

Kann ich den KV-Cache zwischen Anfragen teilen?

Ja, bei Anfragen mit gleichem Prefix (z.B. System Prompt). Prefix Caching spart Rechenzeit und VRAM für wiederkehrende Kontexte.

TOOLS & RESSOURCEN

vLLM

Inference-Engine mit PagedAttention für effizientes KV-Caching

TensorRT-LLM

NVIDIA's optimierte LLM-Inferenz mit KV-Cache-Management

VERWANDTE BEGRIFFE

Architektur Grundlagen

Attention Mechanism

Der Kernmechanismus moderner KI-Modelle – ermöglicht es einem Modell, sich auf die relevantesten Teile der Eingabe zu konzentrieren, statt alles gleich zu gewichten.

Architektur LLM

Transformer

Eine revolutionäre neuronale Netzwerk-Architektur, die auf dem Attention-Mechanismus basiert und die Grundlage für moderne Sprachmodelle wie GPT und BERT bildet.

Architektur Praxis

Inference Optimization

Techniken, die die Ausführung von KI-Modellen schneller und günstiger machen – von KV-Cache über Batching bis Speculative Decoding.

LLM Grundlagen

Kontextfenster

Die maximale Menge an Text (gemessen in Tokens), die ein Sprachmodell gleichzeitig verarbeiten kann – bestehend aus Eingabe und Ausgabe zusammen.

Grundlagen LLM

Tokens

Die kleinsten Texteinheiten, in die ein Sprachmodell Text zerlegt – Wörter, Wortteile oder einzelne Zeichen, die das Modell verarbeiten kann.