<EbeneX/>
Grundlagen LLM · Updated 17. Februar 2026

Tokens

Definition

Die kleinsten Texteinheiten, in die ein Sprachmodell Text zerlegt – Wörter, Wortteile oder einzelne Zeichen, die das Modell verarbeiten kann.

Einsteiger 3 Min. Lesezeit EN: Tokens

Einfach erklärt

Tokens sind die Grundbausteine, mit denen Sprachmodelle Text verarbeiten. Bevor ein LLM einen Text lesen oder schreiben kann, wird der Text in Tokens zerlegt – dieser Vorgang heißt Tokenisierung.

Was ist ein Token?

Ein Token kann sein:

  • Ein ganzes Wort: “Hallo” → [Hallo]
  • Ein Wortteil: “unglaublich” → [un][glaub][lich]
  • Ein Satzzeichen: ”!” → [!]
  • Ein Leerzeichen oder Sonderzeichen

Warum sind Tokens wichtig?

  1. Kosten: API-Anbieter berechnen pro Token – Input und Output separat
  2. Kontextlänge: Jedes Modell hat ein maximales Token-Limit (z.B. 256K bei GPT-5, 1M bei Claude Sonnet 4.6)
  3. Geschwindigkeit: Mehr Tokens = längere Verarbeitungszeit
  4. Qualität: Die Tokenisierung beeinflusst, wie gut ein Modell eine Sprache versteht

Faustregel für Deutsch:

  • 1 Token ≈ 0,6 - 0,8 Wörter (deutsch)
  • 1 Token ≈ 0,75 Wörter (englisch)
  • 1 Seite Text ≈ 500-700 Tokens
  • 1.000 Tokens ≈ 600-800 deutsche Wörter

Technischer Deep Dive

Tokenisierungsverfahren

Byte Pair Encoding (BPE):

  • Standard bei GPT-Modellen (via tiktoken)
  • Startet mit einzelnen Bytes/Zeichen
  • Mergt iterativ die häufigsten Paare zu neuen Tokens
  • Vokabulargröße: typisch 32K-100K Tokens

WordPiece:

  • Verwendet von BERT und ähnlichen Modellen
  • Ähnlich wie BPE, aber nutzt Likelihood statt Häufigkeit für Merges
  • Markiert Wortfortsetzungen mit ”##” (z.B. “spielen” → “spiel” + “##en”)

SentencePiece (Unigram):

  • Verwendet von Llama, T5, Gemini
  • Startet mit großem Vokabular und reduziert es
  • Sprachunabhängig – arbeitet direkt auf Unicode

Tokenisierung in der Praxis

Beispiel (GPT-4 Tokenizer):

"Künstliche Intelligenz verändert die Welt"
-> ["K", "ünst", "liche", " Intell", "igenz", " ver", "ändert", " die", " Welt"]
-> 9 Tokens

Vergleich Deutsch vs. Englisch:

"Artificial Intelligence" → 2 Tokens
"Künstliche Intelligenz"  → 5 Tokens

Deutsche Texte verbrauchen ca. 30-50% mehr Tokens als englische, weil:

  • Zusammengesetzte Wörter häufiger sind
  • Umlaute und Sonderzeichen extra Tokens brauchen
  • Tokenizer primär auf englischen Daten trainiert wurden

Spezielle Tokens

Neben Text-Tokens gibt es spezielle Steuerungs-Tokens:

  • BOS (Beginning of Sequence): Markiert den Anfang
  • EOS (End of Sequence): Markiert das Ende
  • PAD: Füllt kürzere Sequenzen auf gleiche Länge auf
  • UNK: Unbekannte Tokens (bei älteren Tokenizern)
  • System/User/Assistant: Chat-Rollen-Tokens bei Instruction-Modellen

Token-Limits und Strategien

Aktuelle Kontextfenster (2026):

  • GPT-5: 256K Tokens
  • Claude Sonnet 4.6: 1M Tokens (Beta)
  • Gemini 3 Pro: 1M Tokens
  • Llama 4 Scout: 10M Tokens

Strategien bei Token-Limits:

  • Zusammenfassung: Ältere Konversationsteile zusammenfassen
  • RAG: Nur relevante Dokumente in den Kontext laden
  • Sliding Window: Nur die letzten N Tokens behalten
  • Chunking: Lange Dokumente in Teile aufteilen und separat verarbeiten

Kosten-Optimierung

  • Kürzere, präzisere Prompts schreiben
  • System-Prompts minimieren
  • Caching für wiederkehrende Anfragen
  • Kleinere Modelle für einfache Aufgaben nutzen
  • Output-Tokens begrenzen (max_tokens Parameter)

Tokens sind wie Legosteine für Sprache: Ein Wort wie 'unglaublich' wird in kleinere Bausteine zerlegt ('un', 'glaub', 'lich'), die das Modell einzeln verarbeitet und wieder zusammensetzt.

Text wird vor der Verarbeitung in Tokens zerlegt (Tokenisierung)

Ein Token ist nicht immer ein ganzes Wort – häufig sind es Wortteile oder Zeichen

Die Anzahl der Tokens bestimmt Kosten und Kontextlänge bei LLM-APIs

API-Kostenberechnung

OpenAI und andere Anbieter berechnen Kosten pro verarbeiteten Token

Kontextmanagement

Entwickler müssen Token-Limits beachten, wenn sie Prompts für LLMs erstellen

Textanalyse

Tokenisierung ist der erste Schritt bei jeder NLP-Aufgabe

Mehrsprachige Verarbeitung

Tokenizer müssen verschiedene Sprachen und Schriftsysteme effizient abbilden

Wie viele Tokens hat ein deutsches Wort?

Im Durchschnitt 1-3 Tokens. Kurze, häufige Wörter wie 'und' oder 'ist' sind oft ein Token. Längere oder seltenere Wörter werden in Teile zerlegt. Deutsche Wörter brauchen tendenziell mehr Tokens als englische, da die Tokenizer meist auf englischen Texten trainiert wurden.

Warum werden Wörter in Teile zerlegt?

Subword-Tokenisierung ist ein Kompromiss: Ein Tokenizer mit ganzen Wörtern bräuchte ein riesiges Vokabular und könnte unbekannte Wörter nicht verarbeiten. Einzelne Buchstaben wären zu feingranular. Subwords bieten die beste Balance zwischen Vokabulargröße und Ausdruckskraft.

Was kostet ein Token bei der OpenAI API?

Die Preise variieren je nach Modell. GPT-5 kostet ca. $2–10 pro 1 Million Tokens, Claude Sonnet 4.6 $3/$15 (Stand 2026). Eine typische Seite Text hat ca. 500-700 Tokens.

Was passiert, wenn das Token-Limit erreicht ist?

Das Modell kann keine weiteren Tokens verarbeiten. Bei Chat-Anwendungen werden ältere Nachrichten abgeschnitten. Entwickler müssen Strategien wie Zusammenfassung oder RAG nutzen, um mit langen Konversationen umzugehen.

Dein persönliches Share-Bild für Instagram – 1080×1080px, bereit zum Posten.