<EbeneX/>
LLM Praxis · Updated 3. März 2026

Context Engineering

Definition

Die Kunst, das begrenzte Kontextfenster eines LLMs optimal zu nutzen – durch Priorisierung, Kompression und intelligente Auswahl relevanter Informationen.

Fortgeschritten 3 Min. Lesezeit EN: Context Engineering

Einfach erklärt

Context Window Management ist die Kunst, das begrenzte Kontextfenster eines LLMs optimal zu nutzen. Jedes Modell kann nur eine bestimmte Anzahl von Tokens gleichzeitig verarbeiten – Claude Sonnet 4.6 hat 1M (Beta), GPT-5 256k, ältere Modelle nur 4k-128k. Wenn Dokumente, Konversationshistorie oder Kontext dieses Limit überschreiten, müssen Informationen priorisiert, komprimiert oder ausgelagert werden. Gutes Context Management ist der Unterschied zwischen einem LLM, das die relevanten Informationen “sieht”, und einem, das im Dunkeln tappt.

Context Window Management beschreibt alle Strategien, um mit der begrenzten Kapazität des Kontextfensters eines LLMs umzugehen. Jedes Modell kann nur eine bestimmte Anzahl von Tokens gleichzeitig verarbeiten – wenn Dokumente, Konversationshistorie oder Kontext dieses Limit überschreiten, müssen Informationen priorisiert, komprimiert oder ausgelagert werden. Mit wachsenden Kontextfenstern (200k+ Tokens) wird das Problem kleiner, aber nicht verschwinden – und größere Kontexte sind teurer.

Context Engineering ist die strategische Nutzung des begrenzten Kontextfensters. Da LLMs nur eine bestimmte Menge Text gleichzeitig verarbeiten können, musst du entscheiden, was reinkommt.

Das Problem:

Kontextfenster: 128K Tokens
Deine Daten: 500K Tokens
-> Du musst auswählen, was relevant ist

Warum ist das wichtig?

Falsches Context Engineering führt zu:

  • Irrelevanten Antworten (wichtige Info fehlt)
  • Halluzinationen (Modell erfindet fehlende Details)
  • Hohen Kosten (unnötig lange Kontexte)
  • Langsamen Antworten (mehr Tokens = mehr Latenz)

Technischer Deep Dive

Strategien

StrategieBeschreibungWann nutzen
TruncationÄlteste Nachrichten abschneidenEinfache Chats
SummarizationAlte Nachrichten zusammenfassenLange Konversationen
RAGNur relevante Chunks einbeziehenGroße Wissensbasen
Sliding WindowFestes Fenster über KonversationStreaming-Anwendungen
HierarchicalZusammenfassungen + Details on demandKomplexe Dokumente

Lost in the Middle

Studien zeigen: LLMs beachten Anfang und Ende des Kontexts mehr als die Mitte.

[Anfang: hohe Attention] ... [Mitte: niedrige Attention] ... [Ende: hohe Attention]

Konsequenz: Wichtige Informationen an Anfang oder Ende platzieren.

Praktisches Beispiel

def manage_context(messages, max_tokens=4000):
    # System Prompt immer behalten
    system = messages[0]
    
    # Letzte N Nachrichten behalten
    recent = messages[-10:]
    
    # Ältere Nachrichten zusammenfassen
    if len(messages) > 11:
        old_messages = messages[1:-10]
        summary = summarize(old_messages)
        return [system, {"role": "system", "content": f"Bisheriger Verlauf: {summary}"}] + recent
    
    return messages

Best Practices

  • Relevanz vor Vollständigkeit: Lieber weniger, aber relevanter Kontext
  • Strukturierte Prompts: Klare Abschnitte helfen dem Modell
  • Dynamisches Retrieval: Bei Bedarf nachladen statt alles vorab
  • Kosten im Blick: Längerer Kontext = höhere API-Kosten

Context Engineering ist wie das Packen eines Koffers mit Gewichtslimit: Du kannst nicht alles mitnehmen, also wählst du das Wichtigste aus, faltest effizient und priorisierst, was du wirklich brauchst.

Kontextfenster ist begrenzt – nicht alles passt rein

Relevante Informationen priorisieren, irrelevante weglassen

Techniken: Summarization, Chunking, RAG, Sliding Window

Lange Dokumente

Relevante Abschnitte extrahieren statt ganzes Dokument

Chat-Historien

Alte Nachrichten zusammenfassen, um Platz zu sparen

Multi-Document QA

Nur relevante Chunks aus vielen Dokumenten einbeziehen

Was passiert, wenn das Kontextfenster voll ist?

Bei den meisten APIs: Ältere Tokens werden abgeschnitten (von vorne). Das Modell 'vergisst' den Anfang der Konversation. Manche Systeme fassen stattdessen zusammen oder nutzen Sliding Windows.

Wie viel Kontext ist optimal?

Mehr ist nicht immer besser. Studien zeigen, dass LLMs bei sehr langen Kontexten Informationen in der Mitte übersehen ('Lost in the Middle'). Relevanz schlägt Quantität.

Sollte ich immer das maximale Kontextfenster nutzen?

Nein. Längerer Kontext = höhere Kosten und Latenz. Nutze so viel wie nötig, nicht so viel wie möglich.

Dein persönliches Share-Bild für Instagram – 1080×1080px, bereit zum Posten.