Kontextfenster
Die maximale Menge an Text (gemessen in Tokens), die ein Sprachmodell gleichzeitig verarbeiten kann – bestehend aus Eingabe und Ausgabe zusammen.
Die Kunst, das begrenzte Kontextfenster eines LLMs optimal zu nutzen – durch Priorisierung, Kompression und intelligente Auswahl relevanter Informationen.
Context Window Management ist die Kunst, das begrenzte Kontextfenster eines LLMs optimal zu nutzen. Jedes Modell kann nur eine bestimmte Anzahl von Tokens gleichzeitig verarbeiten – Claude Sonnet 4.6 hat 1M (Beta), GPT-5 256k, ältere Modelle nur 4k-128k. Wenn Dokumente, Konversationshistorie oder Kontext dieses Limit überschreiten, müssen Informationen priorisiert, komprimiert oder ausgelagert werden. Gutes Context Management ist der Unterschied zwischen einem LLM, das die relevanten Informationen “sieht”, und einem, das im Dunkeln tappt.
Context Window Management beschreibt alle Strategien, um mit der begrenzten Kapazität des Kontextfensters eines LLMs umzugehen. Jedes Modell kann nur eine bestimmte Anzahl von Tokens gleichzeitig verarbeiten – wenn Dokumente, Konversationshistorie oder Kontext dieses Limit überschreiten, müssen Informationen priorisiert, komprimiert oder ausgelagert werden. Mit wachsenden Kontextfenstern (200k+ Tokens) wird das Problem kleiner, aber nicht verschwinden – und größere Kontexte sind teurer.
Context Engineering ist die strategische Nutzung des begrenzten Kontextfensters. Da LLMs nur eine bestimmte Menge Text gleichzeitig verarbeiten können, musst du entscheiden, was reinkommt.
Das Problem:
Kontextfenster: 128K Tokens
Deine Daten: 500K Tokens
-> Du musst auswählen, was relevant ist
Warum ist das wichtig?
Falsches Context Engineering führt zu:
| Strategie | Beschreibung | Wann nutzen |
|---|---|---|
| Truncation | Älteste Nachrichten abschneiden | Einfache Chats |
| Summarization | Alte Nachrichten zusammenfassen | Lange Konversationen |
| RAG | Nur relevante Chunks einbeziehen | Große Wissensbasen |
| Sliding Window | Festes Fenster über Konversation | Streaming-Anwendungen |
| Hierarchical | Zusammenfassungen + Details on demand | Komplexe Dokumente |
Studien zeigen: LLMs beachten Anfang und Ende des Kontexts mehr als die Mitte.
[Anfang: hohe Attention] ... [Mitte: niedrige Attention] ... [Ende: hohe Attention]
Konsequenz: Wichtige Informationen an Anfang oder Ende platzieren.
def manage_context(messages, max_tokens=4000):
# System Prompt immer behalten
system = messages[0]
# Letzte N Nachrichten behalten
recent = messages[-10:]
# Ältere Nachrichten zusammenfassen
if len(messages) > 11:
old_messages = messages[1:-10]
summary = summarize(old_messages)
return [system, {"role": "system", "content": f"Bisheriger Verlauf: {summary}"}] + recent
return messages
Context Engineering ist wie das Packen eines Koffers mit Gewichtslimit: Du kannst nicht alles mitnehmen, also wählst du das Wichtigste aus, faltest effizient und priorisierst, was du wirklich brauchst.
Kontextfenster ist begrenzt – nicht alles passt rein
Relevante Informationen priorisieren, irrelevante weglassen
Techniken: Summarization, Chunking, RAG, Sliding Window
Lange Dokumente
Relevante Abschnitte extrahieren statt ganzes Dokument
Chat-Historien
Alte Nachrichten zusammenfassen, um Platz zu sparen
Multi-Document QA
Nur relevante Chunks aus vielen Dokumenten einbeziehen
Bei den meisten APIs: Ältere Tokens werden abgeschnitten (von vorne). Das Modell 'vergisst' den Anfang der Konversation. Manche Systeme fassen stattdessen zusammen oder nutzen Sliding Windows.
Mehr ist nicht immer besser. Studien zeigen, dass LLMs bei sehr langen Kontexten Informationen in der Mitte übersehen ('Lost in the Middle'). Relevanz schlägt Quantität.
Nein. Längerer Kontext = höhere Kosten und Latenz. Nutze so viel wie nötig, nicht so viel wie möglich.