Tokens: Kleinste Texteinheiten erklärt – Beispiele & Definition

ERKLÄRUNG

Einfach erklärt

Tokens sind die Grundbausteine, mit denen Sprachmodelle Text verarbeiten. Bevor ein LLM einen Text lesen oder schreiben kann, wird der Text in Tokens zerlegt – dieser Vorgang heißt Tokenisierung.

Was ist ein Token?

Ein Token kann sein:

Ein ganzes Wort: “Hallo” → [Hallo]
Ein Wortteil: “unglaublich” → [un][glaub][lich]
Ein Satzzeichen: ”!” → [!]
Ein Leerzeichen oder Sonderzeichen

Warum sind Tokens wichtig?

Kosten: API-Anbieter berechnen pro Token – Input und Output separat
Kontextlänge: Jedes Modell hat ein maximales Token-Limit (z.B. 256K bei GPT-5, 1M bei Claude Sonnet 4.6)
Geschwindigkeit: Mehr Tokens = längere Verarbeitungszeit
Qualität: Die Tokenisierung beeinflusst, wie gut ein Modell eine Sprache versteht

Faustregel für Deutsch:

1 Token ≈ 0,6 - 0,8 Wörter (deutsch)
1 Token ≈ 0,75 Wörter (englisch)
1 Seite Text ≈ 500-700 Tokens
1.000 Tokens ≈ 600-800 deutsche Wörter

Technischer Deep Dive

Tokenisierungsverfahren

Byte Pair Encoding (BPE):

Standard bei GPT-Modellen (via tiktoken)
Startet mit einzelnen Bytes/Zeichen
Mergt iterativ die häufigsten Paare zu neuen Tokens
Vokabulargröße: typisch 32K-100K Tokens

WordPiece:

Verwendet von BERT und ähnlichen Modellen
Ähnlich wie BPE, aber nutzt Likelihood statt Häufigkeit für Merges
Markiert Wortfortsetzungen mit ”##” (z.B. “spielen” → “spiel” + “##en”)

SentencePiece (Unigram):

Verwendet von Llama, T5, Gemini
Startet mit großem Vokabular und reduziert es
Sprachunabhängig – arbeitet direkt auf Unicode

Tokenisierung in der Praxis

Beispiel (GPT-4 Tokenizer):

"Künstliche Intelligenz verändert die Welt"
-> ["K", "ünst", "liche", " Intell", "igenz", " ver", "ändert", " die", " Welt"]
-> 9 Tokens

Vergleich Deutsch vs. Englisch:

"Artificial Intelligence" → 2 Tokens
"Künstliche Intelligenz"  → 5 Tokens

Deutsche Texte verbrauchen ca. 30-50% mehr Tokens als englische, weil:

Zusammengesetzte Wörter häufiger sind
Umlaute und Sonderzeichen extra Tokens brauchen
Tokenizer primär auf englischen Daten trainiert wurden

Spezielle Tokens

Neben Text-Tokens gibt es spezielle Steuerungs-Tokens:

BOS (Beginning of Sequence): Markiert den Anfang
EOS (End of Sequence): Markiert das Ende
PAD: Füllt kürzere Sequenzen auf gleiche Länge auf
UNK: Unbekannte Tokens (bei älteren Tokenizern)
System/User/Assistant: Chat-Rollen-Tokens bei Instruction-Modellen

Token-Limits und Strategien

Aktuelle Kontextfenster (2026):

GPT-5: 256K Tokens
Claude Sonnet 4.6: 1M Tokens (Beta)
Gemini 3 Pro: 1M Tokens
Llama 4 Scout: 10M Tokens

Strategien bei Token-Limits:

Zusammenfassung: Ältere Konversationsteile zusammenfassen
RAG: Nur relevante Dokumente in den Kontext laden
Sliding Window: Nur die letzten N Tokens behalten
Chunking: Lange Dokumente in Teile aufteilen und separat verarbeiten

Kosten-Optimierung

Kürzere, präzisere Prompts schreiben
System-Prompts minimieren
Caching für wiederkehrende Anfragen
Kleinere Modelle für einfache Aufgaben nutzen
Output-Tokens begrenzen (max_tokens Parameter)

ANALOGIE

Tokens sind wie Legosteine für Sprache: Ein Wort wie 'unglaublich' wird in kleinere Bausteine zerlegt ('un', 'glaub', 'lich'), die das Modell einzeln verarbeitet und wieder zusammensetzt.

WICHTIGSTE PUNKTE

Text wird vor der Verarbeitung in Tokens zerlegt (Tokenisierung)

Ein Token ist nicht immer ein ganzes Wort – häufig sind es Wortteile oder Zeichen

Die Anzahl der Tokens bestimmt Kosten und Kontextlänge bei LLM-APIs

ANWENDUNGSFÄLLE

API-Kostenberechnung

OpenAI und andere Anbieter berechnen Kosten pro verarbeiteten Token

Kontextmanagement

Entwickler müssen Token-Limits beachten, wenn sie Prompts für LLMs erstellen

Textanalyse

Tokenisierung ist der erste Schritt bei jeder NLP-Aufgabe

Mehrsprachige Verarbeitung

Tokenizer müssen verschiedene Sprachen und Schriftsysteme effizient abbilden

HÄUFIGE FRAGEN

Wie viele Tokens hat ein deutsches Wort?

Im Durchschnitt 1-3 Tokens. Kurze, häufige Wörter wie 'und' oder 'ist' sind oft ein Token. Längere oder seltenere Wörter werden in Teile zerlegt. Deutsche Wörter brauchen tendenziell mehr Tokens als englische, da die Tokenizer meist auf englischen Texten trainiert wurden.

Warum werden Wörter in Teile zerlegt?

Subword-Tokenisierung ist ein Kompromiss: Ein Tokenizer mit ganzen Wörtern bräuchte ein riesiges Vokabular und könnte unbekannte Wörter nicht verarbeiten. Einzelne Buchstaben wären zu feingranular. Subwords bieten die beste Balance zwischen Vokabulargröße und Ausdruckskraft.

Was kostet ein Token bei der OpenAI API?

Die Preise variieren je nach Modell. GPT-5 kostet ca. $2–10 pro 1 Million Tokens, Claude Sonnet 4.6 $3/$15 (Stand 2026). Eine typische Seite Text hat ca. 500-700 Tokens.

Was passiert, wenn das Token-Limit erreicht ist?

Das Modell kann keine weiteren Tokens verarbeiten. Bei Chat-Anwendungen werden ältere Nachrichten abgeschnitten. Entwickler müssen Strategien wie Zusammenfassung oder RAG nutzen, um mit langen Konversationen umzugehen.

TOOLS & RESSOURCEN

OpenAI Tokenizer

Online-Tool zum Visualisieren, wie GPT-Modelle Text tokenisieren

tiktoken

Schnelle Python-Bibliothek für OpenAI-Tokenisierung

Hugging Face Tokenizers

Hochperformante Tokenizer-Bibliothek für verschiedene Modelle

SentencePiece

Googles Tokenizer, verwendet in Llama und vielen anderen Modellen

VERWANDTE BEGRIFFE

LLM Grundlagen

Large Language Model (LLM)

Ein KI-Modell, das auf riesigen Textmengen trainiert wurde und menschenähnliche Sprache verstehen und generieren kann.

LLM Grundlagen

Kontextfenster

Die maximale Menge an Text (gemessen in Tokens), die ein Sprachmodell gleichzeitig verarbeiten kann – bestehend aus Eingabe und Ausgabe zusammen.

Architektur LLM

Transformer

Eine revolutionäre neuronale Netzwerk-Architektur, die auf dem Attention-Mechanismus basiert und die Grundlage für moderne Sprachmodelle wie GPT und BERT bildet.

Daten LLM

Embeddings

Numerische Vektordarstellungen von Text, Bildern oder anderen Daten, die semantische Bedeutung in einem hochdimensionalen Raum abbilden.