Kontextfenster: Maximale Textmenge für Sprachmodelle

ERKLÄRUNG

Einfach erklärt

Das Kontextfenster (Context Window) ist die maximale Textmenge, die ein Sprachmodell auf einmal verarbeiten kann. Alles, was du dem Modell schickst (Anweisungen, Kontext, Frage) und alles, was es antwortet, muss in dieses Fenster passen.

Was zählt zum Kontextfenster?

┌─────────────────────────────────────┐
│         Kontextfenster (z.B. 128K)  │
│                                     │
│  ┌─────────────────────────────┐    │
│  │ System Prompt (~500 Tokens) │    │
│  ├─────────────────────────────┤    │
│  │ Konversationsverlauf        │    │
│  │ (~10.000 Tokens)            │    │
│  ├─────────────────────────────┤    │
│  │ RAG-Kontext / Dokumente     │    │
│  │ (~5.000 Tokens)             │    │
│  ├─────────────────────────────┤    │
│  │ Aktuelle Frage (~100 Tokens)│    │
│  ├─────────────────────────────┤    │
│  │ Antwort (~2.000 Tokens)     │    │
│  └─────────────────────────────┘    │
│                                     │
│  Verbleibend: ~110.400 Tokens       │
└─────────────────────────────────────┘

Aktuelle Kontextfenster (2026):

Modell	Kontextfenster	Entspricht ca.
GPT-5	256K Tokens	~600 Seiten
Claude Sonnet 4.6	1M Tokens (Beta)	~2.350 Seiten
Gemini 3 Pro	1M Tokens	~2.350 Seiten
Llama 4 Scout	10M Tokens	~23.500 Seiten
Mistral Large 3	256K Tokens	~600 Seiten

Technischer Deep Dive

Warum ist das Kontextfenster begrenzt?

Technische Gründe:

Quadratische Komplexität: Self-Attention berechnet Beziehungen zwischen allen Token-Paaren → O(n²) Rechenaufwand
Speicherbedarf: Der KV-Cache wächst linear mit der Kontextlänge
Trainingskosten: Modelle müssen auf langen Sequenzen trainiert werden

Beispielrechnung:

128K Tokens × 128K Tokens = 16,4 Milliarden Attention-Berechnungen
256K Tokens × 256K Tokens = 65,5 Milliarden (4x mehr!)

Techniken für längere Kontexte

Positional Encoding:

RoPE (Rotary Position Embedding): Standard in modernen LLMs
ALiBi: Addiert einen Bias basierend auf der Distanz zwischen Tokens
YaRN / NTK-Scaling: Erweitert RoPE auf längere Kontexte als trainiert

Effiziente Attention:

FlashAttention: Optimierte GPU-Speicherzugriffe, keine Approximation
Sliding Window Attention: Jedes Token achtet nur auf die letzten N Tokens
Sparse Attention: Nur ausgewählte Token-Paare berechnen

KV-Cache-Optimierung:

Grouped Query Attention (GQA): Reduziert KV-Cache-Größe
Multi-Query Attention (MQA): Noch aggressivere Reduktion
PagedAttention (vLLM): Effiziente Speicherverwaltung für den KV-Cache

Lost in the Middle

Ein bekanntes Problem: LLMs nutzen Informationen am Anfang und Ende des Kontexts besser als in der Mitte.

Auswirkungen:

Wichtige Informationen in der Mitte langer Kontexte werden übersehen
Die Qualität der Antworten sinkt bei sehr langen Kontexten
Besonders relevant für RAG mit vielen Dokumenten

Gegenmaßnahmen:

Wichtigste Informationen an den Anfang oder das Ende des Kontexts setzen
Relevanteste Dokumente zuerst platzieren
Kontext auf das Wesentliche beschränken statt alles einzufügen
Reranking der Retrieval-Ergebnisse nach Relevanz

Strategien für Kontextmanagement

Sliding Window:

Nur die letzten N Nachrichten behalten
Einfach zu implementieren, aber Kontext geht verloren

Zusammenfassung:

Ältere Konversationsteile zusammenfassen
Komprimiert den Kontext bei Erhalt der wichtigsten Informationen
Zusätzlicher LLM-Call nötig

RAG statt langer Kontext:

Nur relevante Informationen in den Kontext laden
Effizienter als den gesamten Kontext zu füllen
Bessere Ergebnisse bei großen Wissensbasen

Hierarchisches Chunking:

Dokumente auf verschiedenen Abstraktionsebenen speichern
Erst grobe Zusammenfassung, dann Details bei Bedarf
Optimale Nutzung des verfügbaren Kontexts

ANALOGIE

Das Kontextfenster ist wie der Schreibtisch eines Sachbearbeiters: Er kann nur eine begrenzte Anzahl an Dokumenten gleichzeitig ausbreiten und überblicken. Alles, was nicht auf den Schreibtisch passt, kann er nicht berücksichtigen.

WICHTIGSTE PUNKTE

Begrenzt die Menge an Text, die ein LLM gleichzeitig 'sehen' kann

Umfasst System Prompt, Konversationsverlauf, Kontext und generierte Antwort

Größere Kontextfenster ermöglichen längere Dokumente und Konversationen

ANWENDUNGSFÄLLE

Dokumentenanalyse

Verarbeitung ganzer Bücher oder langer Berichte in einem einzigen Prompt

Chat-Anwendungen

Lange Konversationen mit Erinnerung an frühere Nachrichten

Code-Analyse

Verständnis großer Codebasen durch Einbeziehung vieler Dateien

Zusammenfassungen

Zusammenfassung langer Dokumente ohne Informationsverlust

HÄUFIGE FRAGEN

Was passiert, wenn das Kontextfenster voll ist?

Das Modell kann keine weiteren Tokens verarbeiten. Bei Chat-Anwendungen werden typischerweise die ältesten Nachrichten entfernt. Bei API-Aufrufen gibt es einen Fehler. Entwickler müssen Strategien wie Zusammenfassung oder Sliding Window implementieren.

Ist ein größeres Kontextfenster immer besser?

Nicht unbedingt. Größere Kontextfenster kosten mehr (pro Token), und Modelle können bei sehr langen Kontexten Informationen in der Mitte 'vergessen' (Lost in the Middle Problem). Für viele Aufgaben ist ein gezielter, kürzerer Kontext effektiver.

Wie viel Text sind 128K Tokens?

Ungefähr 96.000 Wörter oder etwa 300 Seiten Text. Das entspricht einem durchschnittlichen Roman. In der Praxis wird ein Teil des Kontextfensters für System Prompt und Antwort benötigt.

Warum nutzt man RAG, wenn es große Kontextfenster gibt?

Selbst 2M Tokens reichen nicht für alle Unternehmensdaten. Außerdem: Gezielte Retrieval-Ergebnisse liefern oft bessere Antworten als das Einfügen aller Dokumente. Und die Kosten steigen linear mit der Kontextlänge.

TOOLS & RESSOURCEN

OpenAI GPT-5

256K Token Kontextfenster für lange Dokumente und Konversationen

Claude Sonnet 4.6

1M Token Kontextfenster (Beta) – ganze Codebasen in einem Request

Gemini 3 Pro

1M Token Kontextfenster für extrem lange Dokumente

tiktoken

Token-Zähler, um die Nutzung des Kontextfensters zu überwachen

VERWANDTE BEGRIFFE

Grundlagen LLM

Tokens

Die kleinsten Texteinheiten, in die ein Sprachmodell Text zerlegt – Wörter, Wortteile oder einzelne Zeichen, die das Modell verarbeiten kann.

LLM Grundlagen

Large Language Model (LLM)

Ein KI-Modell, das auf riesigen Textmengen trainiert wurde und menschenähnliche Sprache verstehen und generieren kann.

LLM Daten

RAG (Retrieval Augmented Generation)

Eine Technik, die Large Language Models mit externen Wissensdatenbanken verbindet, um präzisere und faktenbasierte Antworten zu generieren.

LLM Praxis

Prompt Engineering

Die Kunst und Technik, Anweisungen für KI-Sprachmodelle so zu formulieren, dass sie optimale und zielgerichtete Ergebnisse liefern.

Architektur LLM

Transformer

Eine revolutionäre neuronale Netzwerk-Architektur, die auf dem Attention-Mechanismus basiert und die Grundlage für moderne Sprachmodelle wie GPT und BERT bildet.