Context Caching: LLM-Kosten senken durch intelligentes Zwischenspeichern

ERKLÄRUNG

Einfach erklärt

Context Caching speichert den verarbeiteten Kontext eines LLM-Aufrufs, sodass er bei der nächsten Anfrage nicht erneut berechnet werden muss.

Ohne Caching vs. mit Caching:

Ohne Caching (jeder Aufruf):
  [System-Prompt: 5K Tokens] + [Dokument: 20K Tokens] + [Frage: 50 Tokens]
  → 25.050 Tokens berechnet, voller Preis

  Nächste Frage: Dasselbe von vorn!
  → Wieder 25.050 Tokens, voller Preis

Mit Caching:
  Erster Aufruf: [System + Dokument: 25K] cachen + [Frage: 50 Tokens]
  → 25.050 Tokens, voller Preis

  Nächste Frage: [Cache-Hit: 25K] + [Frage: 50 Tokens]
  → Nur 50 neue Tokens + 25K gecacht (90 % günstiger)

Anbieter-Vergleich

Anbieter	Feature	Ersparnis	Cache-Dauer
Anthropic	Prompt Caching	90 % auf gecachte Tokens	5 Minuten (verlängerbar)
Google	Context Caching	75 % auf gecachte Tokens	Konfigurierbar (Stunden)
OpenAI	Prompt Caching	50 % auf gecachte Tokens	Automatisch
Self-Hosted	KV-Cache / Prefix Caching	Latenz-Reduktion	Session-basiert

Praxisbeispiel

import anthropic

client = anthropic.Anthropic()

# Großen Kontext einmal senden und cachen
response = client.messages.create(
    model="claude-3-5-sonnet-20241022",
    max_tokens=1024,
    system=[{
        "type": "text",
        "text": "Du bist ein Experte für..." + langes_dokument,
        "cache_control": {"type": "ephemeral"}  # ← Caching aktivieren
    }],
    messages=[{"role": "user", "content": "Frage 1"}]
)

# Zweiter Aufruf: Cache-Hit → 90 % günstiger
response2 = client.messages.create(
    # Gleicher System-Prompt → wird aus Cache geladen
    ...
    messages=[{"role": "user", "content": "Frage 2"}]
)

Wann cachen?

✅ Große System-Prompts (>1000 Tokens) die sich selten ändern
✅ Dokumente zu denen viele Fragen gestellt werden
✅ Few-Shot-Beispiele die bei allen Anfragen gleich sind
❌ Einmalige Anfragen ohne Wiederholung
❌ Sich ständig ändernder Kontext

ANALOGIE

Context Caching ist wie ein Lehrer, der ein Lehrbuch einmal gründlich liest und sich Notizen macht – statt es für jeden Schüler von vorn zu lesen. Die Vorbereitung kostet einmal Zeit, aber danach kann er jede Frage schneller und günstiger beantworten.

WICHTIGSTE PUNKTE

Speichert verarbeitete Kontexte (Prefill) für wiederholte Nutzung

Reduziert Kosten um bis zu 90 % bei wiederholten Anfragen mit gleichem Kontext

Angeboten von Google (Gemini), Anthropic (Claude) und als KV-Cache bei Open-Source-Modellen

ANWENDUNGSFÄLLE

Chatbots mit großem System-Prompt

System-Prompt + Wissensbasis einmal cachen, nur User-Nachrichten neu verarbeiten

Dokumentenanalyse

Ein großes Dokument cachen und viele verschiedene Fragen dazu stellen

Few-Shot-Learning im Produktionsbetrieb

Beispiele einmal cachen statt bei jeder Anfrage mitzusenden

RAG-Systeme

Häufig abgerufene Kontexte zwischenspeichern

HÄUFIGE FRAGEN

Was ist der Unterschied zwischen Context Caching und KV-Cache?

KV-Cache speichert die berechneten Key-Value-Paare der Attention-Layer während einer einzelnen Generierung. Context Caching geht weiter: Es speichert den verarbeiteten Kontext über mehrere Anfragen hinweg – also zwischen verschiedenen API-Aufrufen.

Wie viel kann ich sparen?

Bei Anthropic Claude: Gecachte Tokens kosten 90 % weniger als neue. Bei Google Gemini: 75 % günstiger. Ein System-Prompt mit 10.000 Tokens, der 100× verwendet wird, spart also erheblich.

Wann lohnt sich Context Caching?

Wenn du denselben Kontext (System-Prompt, Dokumente, Beispiele) bei vielen aufeinanderfolgenden Anfragen verwendest. Bei einmaligen Anfragen mit sich ständig änderndem Kontext bringt es keinen Vorteil.

TOOLS & RESSOURCEN

Google Gemini Context Caching

Offizielles Context Caching für Gemini-Modelle

Anthropic Prompt Caching

Prompt Caching für Claude mit bis zu 90 % Kostenersparnis

vLLM

Automatic Prefix Caching für Self-Hosted-Modelle

VERWANDTE BEGRIFFE

Praxis DevOps

Prompt Caching

Eine Optimierungstechnik bei LLM-APIs, bei der wiederkehrende Teile eines Prompts (z.B. System-Prompts oder lange Dokumente) gecacht werden, um Latenz und Kosten zu reduzieren.

Architektur LLM

KV-Cache

Ein Optimierungsmechanismus für Transformer-Modelle, der die Key-Value-Paare aus dem Attention-Mechanismus zwischenspeichert, um wiederholte Berechnungen zu vermeiden.

LLM Grundlagen

Kontextfenster

Die maximale Menge an Text (gemessen in Tokens), die ein Sprachmodell gleichzeitig verarbeiten kann – bestehend aus Eingabe und Ausgabe zusammen.

Architektur Praxis

Inference Optimization

Techniken, die die Ausführung von KI-Modellen schneller und günstiger machen – von KV-Cache über Batching bis Speculative Decoding.

Grundlagen LLM

Tokens

Die kleinsten Texteinheiten, in die ein Sprachmodell Text zerlegt – Wörter, Wortteile oder einzelne Zeichen, die das Modell verarbeiten kann.