Was ist Tokenisierung? Text in Einheiten zerlegen | KI-Glossar

ERKLÄRUNG

Einfach erklärt

Tokenisierung ist der Prozess, bei dem Text in die kleinsten Einheiten zerlegt wird, die ein Sprachmodell verarbeiten kann. Ohne Tokenisierung kann kein LLM funktionieren – Modelle verstehen keine Buchstaben oder Wörter direkt, sondern nur Zahlen (Token-IDs).

Moderne Tokenizer wie BPE (Byte Pair Encoding) zerlegen Text nicht nach Wörtern, sondern nach häufigen Zeichenkombinationen. “Tokenisierung” wird zu [“Token”, “is”, “ierung”] – drei Tokens. Das hat praktische Konsequenzen: Englischer Text ist effizienter tokenisiert als Deutsch, weil Englisch kürzere Wörter hat. Code hat eigene Tokenisierungsmuster. Und Zahlen wie “12345” können als ein Token oder fünf separate Tokens kodiert werden – was erklärt, warum LLMs manchmal bei Arithmetik scheitern.

Verfahren im Vergleich:

Verfahren	Verwendet in	Prinzip
BPE (Byte Pair Encoding)	GPT, Llama 4	Häufige Zeichenpaare iterativ zusammenfassen
WordPiece	BERT	Ähnlich BPE, nutzt Likelihood statt Häufigkeit
SentencePiece	Llama 2, T5, Gemini	Sprachunabhängig, arbeitet auf Unicode

Beispiel BPE:

"spielen" → ["spiel", "en"]
"Spielplatz" → ["Spiel", "platz"]
"unspielbar" → ["un", "spiel", "bar"]

Technischer Deep Dive

BPE-Algorithmus

Starte mit einzelnen Bytes/Zeichen als Vokabular
Zähle alle benachbarten Paare im Trainingskorpus
Merge das häufigste Paar zu einem neuen Token
Wiederhole bis gewünschte Vokabulargröße erreicht (z.B. 100.000)

Tokenizer-Training

Der Tokenizer wird separat vom Modell auf einem Textkorpus trainiert. Die Wahl des Trainingskorpus beeinflusst:

Welche Sprachen effizient tokenisiert werden
Wie gut Fachbegriffe und Code verarbeitet werden
Die Gesamteffizienz (Tokens pro Wort)

Spezielle Herausforderungen

Zahlen: “123456” kann als ein oder mehrere Tokens dargestellt werden
Code: Einrückungen und Sonderzeichen brauchen spezielle Behandlung
Emoji: Können mehrere Tokens verbrauchen
Seltene Sprachen: Werden oft zeichenweise tokenisiert (sehr ineffizient)

ANALOGIE

Tokenisierung ist wie das Zerlegen eines Satzes in Puzzleteile: Der Text wird in handhabbare Stücke geschnitten, die das Modell einzeln verarbeiten und wieder zusammensetzen kann.

WICHTIGSTE PUNKTE

Wandelt Rohtext in eine Sequenz von Token-IDs um, die das Modell verarbeiten kann

Verschiedene Verfahren: BPE, WordPiece, SentencePiece – jedes Modell hat seinen eigenen Tokenizer

Beeinflusst Kosten, Kontextlänge und Sprachqualität des Modells

ANWENDUNGSFÄLLE

LLM-Vorverarbeitung

Jeder Text muss tokenisiert werden, bevor ein LLM ihn verarbeiten kann

Kostenberechnung

API-Kosten basieren auf der Anzahl der Tokens nach Tokenisierung

Mehrsprachige Modelle

Der Tokenizer bestimmt, wie effizient verschiedene Sprachen verarbeitet werden

HÄUFIGE FRAGEN

Warum tokenisiert man nicht einfach nach Wörtern?

Wort-Tokenisierung hat Probleme: riesiges Vokabular nötig, unbekannte Wörter können nicht verarbeitet werden, zusammengesetzte Wörter (besonders im Deutschen) sind problematisch. Subword-Tokenisierung löst all diese Probleme.

Warum braucht Deutsch mehr Tokens als Englisch?

Die meisten Tokenizer sind auf englischen Texten trainiert. Deutsche Wörter sind oft länger (Zusammensetzungen wie 'Krankenversicherung') und Umlaute brauchen extra Bytes. Deutsch benötigt ca. 30-50% mehr Tokens.

Wie beeinflusst die Tokenisierung die Leistung eines Sprachmodells?

Die Art und Weise, wie Text tokenisiert wird, kann die Effizienz und Genauigkeit eines Sprachmodells erheblich beeinflussen. Eine gut durchdachte Tokenisierung hilft dem Modell, relevante Muster besser zu erkennen und zu verarbeiten.

Kann ich die Tokenisierung anpassen, um spezifische Anforderungen zu erfüllen?

Ja, viele Tokenisierungsalgorithmen ermöglichen Anpassungen, um spezifische Anforderungen zu erfüllen, wie z.B. das Hinzufügen von benutzerdefinierten Tokens oder das Ändern der Token-Länge. Dies kann besonders nützlich sein, um branchenspezifische Begriffe besser zu erfassen.

TOOLS & RESSOURCEN

tiktoken

OpenAIs schneller BPE-Tokenizer für GPT-Modelle

Hugging Face Tokenizers

Hochperformante Tokenizer-Bibliothek für verschiedene Modelle

SentencePiece

Sprachunabhängiger Tokenizer von Google, verwendet in Llama und T5

VERWANDTE BEGRIFFE

Grundlagen LLM

Tokens

Die kleinsten Texteinheiten, in die ein Sprachmodell Text zerlegt – Wörter, Wortteile oder einzelne Zeichen, die das Modell verarbeiten kann.

LLM Grundlagen

Large Language Model (LLM)

Ein KI-Modell, das auf riesigen Textmengen trainiert wurde und menschenähnliche Sprache verstehen und generieren kann.

Daten LLM

Embeddings

Numerische Vektordarstellungen von Text, Bildern oder anderen Daten, die semantische Bedeutung in einem hochdimensionalen Raum abbilden.

LLM Grundlagen

Kontextfenster

Die maximale Menge an Text (gemessen in Tokens), die ein Sprachmodell gleichzeitig verarbeiten kann – bestehend aus Eingabe und Ausgabe zusammen.

Grundlagen

Inferenz

Die Anwendung eines trainierten KI-Modells auf neue Daten, um Vorhersagen oder Ausgaben zu generieren – der produktive Einsatz nach dem Training.