Context Engineering: Effektives Kontextfenster-Management

ERKLÄRUNG

Einfach erklärt

Context Window Management ist die Kunst, das begrenzte Kontextfenster eines LLMs optimal zu nutzen. Jedes Modell kann nur eine bestimmte Anzahl von Tokens gleichzeitig verarbeiten – Claude Sonnet 4.6 hat 1M (Beta), GPT-5 256k, ältere Modelle nur 4k-128k. Wenn Dokumente, Konversationshistorie oder Kontext dieses Limit überschreiten, müssen Informationen priorisiert, komprimiert oder ausgelagert werden. Gutes Context Management ist der Unterschied zwischen einem LLM, das die relevanten Informationen “sieht”, und einem, das im Dunkeln tappt.

Context Window Management beschreibt alle Strategien, um mit der begrenzten Kapazität des Kontextfensters eines LLMs umzugehen. Jedes Modell kann nur eine bestimmte Anzahl von Tokens gleichzeitig verarbeiten – wenn Dokumente, Konversationshistorie oder Kontext dieses Limit überschreiten, müssen Informationen priorisiert, komprimiert oder ausgelagert werden. Mit wachsenden Kontextfenstern (200k+ Tokens) wird das Problem kleiner, aber nicht verschwinden – und größere Kontexte sind teurer.

Context Engineering ist die strategische Nutzung des begrenzten Kontextfensters. Da LLMs nur eine bestimmte Menge Text gleichzeitig verarbeiten können, musst du entscheiden, was reinkommt.

Das Problem:

Kontextfenster: 128K Tokens
Deine Daten: 500K Tokens
-> Du musst auswählen, was relevant ist

Warum ist das wichtig?

Falsches Context Engineering führt zu:

Irrelevanten Antworten (wichtige Info fehlt)
Halluzinationen (Modell erfindet fehlende Details)
Hohen Kosten (unnötig lange Kontexte)
Langsamen Antworten (mehr Tokens = mehr Latenz)

Technischer Deep Dive

Strategien

Strategie	Beschreibung	Wann nutzen
Truncation	Älteste Nachrichten abschneiden	Einfache Chats
Summarization	Alte Nachrichten zusammenfassen	Lange Konversationen
RAG	Nur relevante Chunks einbeziehen	Große Wissensbasen
Sliding Window	Festes Fenster über Konversation	Streaming-Anwendungen
Hierarchical	Zusammenfassungen + Details on demand	Komplexe Dokumente

Lost in the Middle

Studien zeigen: LLMs beachten Anfang und Ende des Kontexts mehr als die Mitte.

[Anfang: hohe Attention] ... [Mitte: niedrige Attention] ... [Ende: hohe Attention]

Konsequenz: Wichtige Informationen an Anfang oder Ende platzieren.

Praktisches Beispiel

def manage_context(messages, max_tokens=4000):
    # System Prompt immer behalten
    system = messages[0]
    
    # Letzte N Nachrichten behalten
    recent = messages[-10:]
    
    # Ältere Nachrichten zusammenfassen
    if len(messages) > 11:
        old_messages = messages[1:-10]
        summary = summarize(old_messages)
        return [system, {"role": "system", "content": f"Bisheriger Verlauf: {summary}"}] + recent
    
    return messages

Best Practices

Relevanz vor Vollständigkeit: Lieber weniger, aber relevanter Kontext
Strukturierte Prompts: Klare Abschnitte helfen dem Modell
Dynamisches Retrieval: Bei Bedarf nachladen statt alles vorab
Kosten im Blick: Längerer Kontext = höhere API-Kosten

ANALOGIE

Context Engineering ist wie das Packen eines Koffers mit Gewichtslimit: Du kannst nicht alles mitnehmen, also wählst du das Wichtigste aus, faltest effizient und priorisierst, was du wirklich brauchst.

WICHTIGSTE PUNKTE

Kontextfenster ist begrenzt – nicht alles passt rein

Relevante Informationen priorisieren, irrelevante weglassen

Techniken: Summarization, Chunking, RAG, Sliding Window

ANWENDUNGSFÄLLE

Lange Dokumente

Relevante Abschnitte extrahieren statt ganzes Dokument

Chat-Historien

Alte Nachrichten zusammenfassen, um Platz zu sparen

Multi-Document QA

Nur relevante Chunks aus vielen Dokumenten einbeziehen

HÄUFIGE FRAGEN

Was passiert, wenn das Kontextfenster voll ist?

Bei den meisten APIs: Ältere Tokens werden abgeschnitten (von vorne). Das Modell 'vergisst' den Anfang der Konversation. Manche Systeme fassen stattdessen zusammen oder nutzen Sliding Windows.

Wie viel Kontext ist optimal?

Mehr ist nicht immer besser. Studien zeigen, dass LLMs bei sehr langen Kontexten Informationen in der Mitte übersehen ('Lost in the Middle'). Relevanz schlägt Quantität.

Sollte ich immer das maximale Kontextfenster nutzen?

Nein. Längerer Kontext = höhere Kosten und Latenz. Nutze so viel wie nötig, nicht so viel wie möglich.

TOOLS & RESSOURCEN

LangChain Memory

Verschiedene Memory-Strategien für Kontext-Management

LlamaIndex

Framework für intelligentes Retrieval und Context Management

VERWANDTE BEGRIFFE

LLM Grundlagen

Kontextfenster

Die maximale Menge an Text (gemessen in Tokens), die ein Sprachmodell gleichzeitig verarbeiten kann – bestehend aus Eingabe und Ausgabe zusammen.

Grundlagen LLM

Tokens

Die kleinsten Texteinheiten, in die ein Sprachmodell Text zerlegt – Wörter, Wortteile oder einzelne Zeichen, die das Modell verarbeiten kann.

LLM Daten

RAG (Retrieval Augmented Generation)

Eine Technik, die Large Language Models mit externen Wissensdatenbanken verbindet, um präzisere und faktenbasierte Antworten zu generieren.

LLM Praxis

Chunking & Reranking

Zwei Schlüsseltechniken für RAG-Systeme: Chunking teilt Dokumente in suchbare Abschnitte, Reranking sortiert die Ergebnisse nach Relevanz.

LLM Praxis

Prompt Engineering

Die Kunst und Technik, Anweisungen für KI-Sprachmodelle so zu formulieren, dass sie optimale und zielgerichtete Ergebnisse liefern.