Large Language Model (LLM)
Ein KI-Modell, das auf riesigen Textmengen trainiert wurde und menschenähnliche Sprache verstehen und generieren kann.
Die kleinsten Texteinheiten, in die ein Sprachmodell Text zerlegt – Wörter, Wortteile oder einzelne Zeichen, die das Modell verarbeiten kann.
Tokens sind die Grundbausteine, mit denen Sprachmodelle Text verarbeiten. Bevor ein LLM einen Text lesen oder schreiben kann, wird der Text in Tokens zerlegt – dieser Vorgang heißt Tokenisierung.
Was ist ein Token?
Ein Token kann sein:
[Hallo][un][glaub][lich][!]Warum sind Tokens wichtig?
Faustregel für Deutsch:
Byte Pair Encoding (BPE):
WordPiece:
SentencePiece (Unigram):
Beispiel (GPT-4 Tokenizer):
"Künstliche Intelligenz verändert die Welt"
-> ["K", "ünst", "liche", " Intell", "igenz", " ver", "ändert", " die", " Welt"]
-> 9 Tokens
Vergleich Deutsch vs. Englisch:
"Artificial Intelligence" → 2 Tokens
"Künstliche Intelligenz" → 5 Tokens
Deutsche Texte verbrauchen ca. 30-50% mehr Tokens als englische, weil:
Neben Text-Tokens gibt es spezielle Steuerungs-Tokens:
Aktuelle Kontextfenster (2026):
Strategien bei Token-Limits:
Tokens sind wie Legosteine für Sprache: Ein Wort wie 'unglaublich' wird in kleinere Bausteine zerlegt ('un', 'glaub', 'lich'), die das Modell einzeln verarbeitet und wieder zusammensetzt.
Text wird vor der Verarbeitung in Tokens zerlegt (Tokenisierung)
Ein Token ist nicht immer ein ganzes Wort – häufig sind es Wortteile oder Zeichen
Die Anzahl der Tokens bestimmt Kosten und Kontextlänge bei LLM-APIs
API-Kostenberechnung
OpenAI und andere Anbieter berechnen Kosten pro verarbeiteten Token
Kontextmanagement
Entwickler müssen Token-Limits beachten, wenn sie Prompts für LLMs erstellen
Textanalyse
Tokenisierung ist der erste Schritt bei jeder NLP-Aufgabe
Mehrsprachige Verarbeitung
Tokenizer müssen verschiedene Sprachen und Schriftsysteme effizient abbilden
Im Durchschnitt 1-3 Tokens. Kurze, häufige Wörter wie 'und' oder 'ist' sind oft ein Token. Längere oder seltenere Wörter werden in Teile zerlegt. Deutsche Wörter brauchen tendenziell mehr Tokens als englische, da die Tokenizer meist auf englischen Texten trainiert wurden.
Subword-Tokenisierung ist ein Kompromiss: Ein Tokenizer mit ganzen Wörtern bräuchte ein riesiges Vokabular und könnte unbekannte Wörter nicht verarbeiten. Einzelne Buchstaben wären zu feingranular. Subwords bieten die beste Balance zwischen Vokabulargröße und Ausdruckskraft.
Die Preise variieren je nach Modell. GPT-5 kostet ca. $2–10 pro 1 Million Tokens, Claude Sonnet 4.6 $3/$15 (Stand 2026). Eine typische Seite Text hat ca. 500-700 Tokens.
Das Modell kann keine weiteren Tokens verarbeiten. Bei Chat-Anwendungen werden ältere Nachrichten abgeschnitten. Entwickler müssen Strategien wie Zusammenfassung oder RAG nutzen, um mit langen Konversationen umzugehen.
Online-Tool zum Visualisieren, wie GPT-Modelle Text tokenisieren
Schnelle Python-Bibliothek für OpenAI-Tokenisierung
Hochperformante Tokenizer-Bibliothek für verschiedene Modelle
Googles Tokenizer, verwendet in Llama und vielen anderen Modellen