Tokens
Die kleinsten Texteinheiten, in die ein Sprachmodell Text zerlegt – Wörter, Wortteile oder einzelne Zeichen, die das Modell verarbeiten kann.
Die maximale Menge an Text (gemessen in Tokens), die ein Sprachmodell gleichzeitig verarbeiten kann – bestehend aus Eingabe und Ausgabe zusammen.
Das Kontextfenster (Context Window) ist die maximale Textmenge, die ein Sprachmodell auf einmal verarbeiten kann. Alles, was du dem Modell schickst (Anweisungen, Kontext, Frage) und alles, was es antwortet, muss in dieses Fenster passen.
Was zählt zum Kontextfenster?
┌─────────────────────────────────────┐
│ Kontextfenster (z.B. 128K) │
│ │
│ ┌─────────────────────────────┐ │
│ │ System Prompt (~500 Tokens) │ │
│ ├─────────────────────────────┤ │
│ │ Konversationsverlauf │ │
│ │ (~10.000 Tokens) │ │
│ ├─────────────────────────────┤ │
│ │ RAG-Kontext / Dokumente │ │
│ │ (~5.000 Tokens) │ │
│ ├─────────────────────────────┤ │
│ │ Aktuelle Frage (~100 Tokens)│ │
│ ├─────────────────────────────┤ │
│ │ Antwort (~2.000 Tokens) │ │
│ └─────────────────────────────┘ │
│ │
│ Verbleibend: ~110.400 Tokens │
└─────────────────────────────────────┘
Aktuelle Kontextfenster (2026):
| Modell | Kontextfenster | Entspricht ca. |
|---|---|---|
| GPT-5 | 256K Tokens | ~600 Seiten |
| Claude Sonnet 4.6 | 1M Tokens (Beta) | ~2.350 Seiten |
| Gemini 3 Pro | 1M Tokens | ~2.350 Seiten |
| Llama 4 Scout | 10M Tokens | ~23.500 Seiten |
| Mistral Large 3 | 256K Tokens | ~600 Seiten |
Technische Gründe:
Beispielrechnung:
128K Tokens × 128K Tokens = 16,4 Milliarden Attention-Berechnungen
256K Tokens × 256K Tokens = 65,5 Milliarden (4x mehr!)
Effiziente Attention:
KV-Cache-Optimierung:
Ein bekanntes Problem: LLMs nutzen Informationen am Anfang und Ende des Kontexts besser als in der Mitte.
Auswirkungen:
Gegenmaßnahmen:
Sliding Window:
Zusammenfassung:
RAG statt langer Kontext:
Hierarchisches Chunking:
Das Kontextfenster ist wie der Schreibtisch eines Sachbearbeiters: Er kann nur eine begrenzte Anzahl an Dokumenten gleichzeitig ausbreiten und überblicken. Alles, was nicht auf den Schreibtisch passt, kann er nicht berücksichtigen.
Begrenzt die Menge an Text, die ein LLM gleichzeitig 'sehen' kann
Umfasst System Prompt, Konversationsverlauf, Kontext und generierte Antwort
Größere Kontextfenster ermöglichen längere Dokumente und Konversationen
Dokumentenanalyse
Verarbeitung ganzer Bücher oder langer Berichte in einem einzigen Prompt
Chat-Anwendungen
Lange Konversationen mit Erinnerung an frühere Nachrichten
Code-Analyse
Verständnis großer Codebasen durch Einbeziehung vieler Dateien
Zusammenfassungen
Zusammenfassung langer Dokumente ohne Informationsverlust
Das Modell kann keine weiteren Tokens verarbeiten. Bei Chat-Anwendungen werden typischerweise die ältesten Nachrichten entfernt. Bei API-Aufrufen gibt es einen Fehler. Entwickler müssen Strategien wie Zusammenfassung oder Sliding Window implementieren.
Nicht unbedingt. Größere Kontextfenster kosten mehr (pro Token), und Modelle können bei sehr langen Kontexten Informationen in der Mitte 'vergessen' (Lost in the Middle Problem). Für viele Aufgaben ist ein gezielter, kürzerer Kontext effektiver.
Ungefähr 96.000 Wörter oder etwa 300 Seiten Text. Das entspricht einem durchschnittlichen Roman. In der Praxis wird ein Teil des Kontextfensters für System Prompt und Antwort benötigt.
Selbst 2M Tokens reichen nicht für alle Unternehmensdaten. Außerdem: Gezielte Retrieval-Ergebnisse liefern oft bessere Antworten als das Einfügen aller Dokumente. Und die Kosten steigen linear mit der Kontextlänge.