<EbeneX/>
LLM Grundlagen · Updated 17. Februar 2026

Kontextfenster

Definition

Die maximale Menge an Text (gemessen in Tokens), die ein Sprachmodell gleichzeitig verarbeiten kann – bestehend aus Eingabe und Ausgabe zusammen.

Einsteiger 3 Min. Lesezeit EN: Context Window

Einfach erklärt

Das Kontextfenster (Context Window) ist die maximale Textmenge, die ein Sprachmodell auf einmal verarbeiten kann. Alles, was du dem Modell schickst (Anweisungen, Kontext, Frage) und alles, was es antwortet, muss in dieses Fenster passen.

Was zählt zum Kontextfenster?

┌─────────────────────────────────────┐
│         Kontextfenster (z.B. 128K)  │
│                                     │
│  ┌─────────────────────────────┐    │
│  │ System Prompt (~500 Tokens) │    │
│  ├─────────────────────────────┤    │
│  │ Konversationsverlauf        │    │
│  │ (~10.000 Tokens)            │    │
│  ├─────────────────────────────┤    │
│  │ RAG-Kontext / Dokumente     │    │
│  │ (~5.000 Tokens)             │    │
│  ├─────────────────────────────┤    │
│  │ Aktuelle Frage (~100 Tokens)│    │
│  ├─────────────────────────────┤    │
│  │ Antwort (~2.000 Tokens)     │    │
│  └─────────────────────────────┘    │
│                                     │
│  Verbleibend: ~110.400 Tokens       │
└─────────────────────────────────────┘

Aktuelle Kontextfenster (2026):

ModellKontextfensterEntspricht ca.
GPT-5256K Tokens~600 Seiten
Claude Sonnet 4.61M Tokens (Beta)~2.350 Seiten
Gemini 3 Pro1M Tokens~2.350 Seiten
Llama 4 Scout10M Tokens~23.500 Seiten
Mistral Large 3256K Tokens~600 Seiten

Technischer Deep Dive

Warum ist das Kontextfenster begrenzt?

Technische Gründe:

  • Quadratische Komplexität: Self-Attention berechnet Beziehungen zwischen allen Token-Paaren → O(n²) Rechenaufwand
  • Speicherbedarf: Der KV-Cache wächst linear mit der Kontextlänge
  • Trainingskosten: Modelle müssen auf langen Sequenzen trainiert werden

Beispielrechnung:

128K Tokens × 128K Tokens = 16,4 Milliarden Attention-Berechnungen
256K Tokens × 256K Tokens = 65,5 Milliarden (4x mehr!)

Techniken für längere Kontexte

Positional Encoding:

  • RoPE (Rotary Position Embedding): Standard in modernen LLMs
  • ALiBi: Addiert einen Bias basierend auf der Distanz zwischen Tokens
  • YaRN / NTK-Scaling: Erweitert RoPE auf längere Kontexte als trainiert

Effiziente Attention:

  • FlashAttention: Optimierte GPU-Speicherzugriffe, keine Approximation
  • Sliding Window Attention: Jedes Token achtet nur auf die letzten N Tokens
  • Sparse Attention: Nur ausgewählte Token-Paare berechnen

KV-Cache-Optimierung:

  • Grouped Query Attention (GQA): Reduziert KV-Cache-Größe
  • Multi-Query Attention (MQA): Noch aggressivere Reduktion
  • PagedAttention (vLLM): Effiziente Speicherverwaltung für den KV-Cache

Lost in the Middle

Ein bekanntes Problem: LLMs nutzen Informationen am Anfang und Ende des Kontexts besser als in der Mitte.

Auswirkungen:

  • Wichtige Informationen in der Mitte langer Kontexte werden übersehen
  • Die Qualität der Antworten sinkt bei sehr langen Kontexten
  • Besonders relevant für RAG mit vielen Dokumenten

Gegenmaßnahmen:

  • Wichtigste Informationen an den Anfang oder das Ende des Kontexts setzen
  • Relevanteste Dokumente zuerst platzieren
  • Kontext auf das Wesentliche beschränken statt alles einzufügen
  • Reranking der Retrieval-Ergebnisse nach Relevanz

Strategien für Kontextmanagement

Sliding Window:

  • Nur die letzten N Nachrichten behalten
  • Einfach zu implementieren, aber Kontext geht verloren

Zusammenfassung:

  • Ältere Konversationsteile zusammenfassen
  • Komprimiert den Kontext bei Erhalt der wichtigsten Informationen
  • Zusätzlicher LLM-Call nötig

RAG statt langer Kontext:

  • Nur relevante Informationen in den Kontext laden
  • Effizienter als den gesamten Kontext zu füllen
  • Bessere Ergebnisse bei großen Wissensbasen

Hierarchisches Chunking:

  • Dokumente auf verschiedenen Abstraktionsebenen speichern
  • Erst grobe Zusammenfassung, dann Details bei Bedarf
  • Optimale Nutzung des verfügbaren Kontexts

Das Kontextfenster ist wie der Schreibtisch eines Sachbearbeiters: Er kann nur eine begrenzte Anzahl an Dokumenten gleichzeitig ausbreiten und überblicken. Alles, was nicht auf den Schreibtisch passt, kann er nicht berücksichtigen.

Begrenzt die Menge an Text, die ein LLM gleichzeitig 'sehen' kann

Umfasst System Prompt, Konversationsverlauf, Kontext und generierte Antwort

Größere Kontextfenster ermöglichen längere Dokumente und Konversationen

Dokumentenanalyse

Verarbeitung ganzer Bücher oder langer Berichte in einem einzigen Prompt

Chat-Anwendungen

Lange Konversationen mit Erinnerung an frühere Nachrichten

Code-Analyse

Verständnis großer Codebasen durch Einbeziehung vieler Dateien

Zusammenfassungen

Zusammenfassung langer Dokumente ohne Informationsverlust

Was passiert, wenn das Kontextfenster voll ist?

Das Modell kann keine weiteren Tokens verarbeiten. Bei Chat-Anwendungen werden typischerweise die ältesten Nachrichten entfernt. Bei API-Aufrufen gibt es einen Fehler. Entwickler müssen Strategien wie Zusammenfassung oder Sliding Window implementieren.

Ist ein größeres Kontextfenster immer besser?

Nicht unbedingt. Größere Kontextfenster kosten mehr (pro Token), und Modelle können bei sehr langen Kontexten Informationen in der Mitte 'vergessen' (Lost in the Middle Problem). Für viele Aufgaben ist ein gezielter, kürzerer Kontext effektiver.

Wie viel Text sind 128K Tokens?

Ungefähr 96.000 Wörter oder etwa 300 Seiten Text. Das entspricht einem durchschnittlichen Roman. In der Praxis wird ein Teil des Kontextfensters für System Prompt und Antwort benötigt.

Warum nutzt man RAG, wenn es große Kontextfenster gibt?

Selbst 2M Tokens reichen nicht für alle Unternehmensdaten. Außerdem: Gezielte Retrieval-Ergebnisse liefern oft bessere Antworten als das Einfügen aller Dokumente. Und die Kosten steigen linear mit der Kontextlänge.

Dein persönliches Share-Bild für Instagram – 1080×1080px, bereit zum Posten.