Tokens
Die kleinsten Texteinheiten, in die ein Sprachmodell Text zerlegt – Wörter, Wortteile oder einzelne Zeichen, die das Modell verarbeiten kann.
Der Prozess, bei dem Text in kleinere Einheiten (Tokens) zerlegt wird, bevor ein Sprachmodell ihn verarbeiten kann – der erste und entscheidende Schritt jeder NLP-Pipeline.
Tokenisierung ist der Prozess, bei dem Text in die kleinsten Einheiten zerlegt wird, die ein Sprachmodell verarbeiten kann. Ohne Tokenisierung kann kein LLM funktionieren – Modelle verstehen keine Buchstaben oder Wörter direkt, sondern nur Zahlen (Token-IDs).
Moderne Tokenizer wie BPE (Byte Pair Encoding) zerlegen Text nicht nach Wörtern, sondern nach häufigen Zeichenkombinationen. “Tokenisierung” wird zu [“Token”, “is”, “ierung”] – drei Tokens. Das hat praktische Konsequenzen: Englischer Text ist effizienter tokenisiert als Deutsch, weil Englisch kürzere Wörter hat. Code hat eigene Tokenisierungsmuster. Und Zahlen wie “12345” können als ein Token oder fünf separate Tokens kodiert werden – was erklärt, warum LLMs manchmal bei Arithmetik scheitern.
Verfahren im Vergleich:
| Verfahren | Verwendet in | Prinzip |
|---|---|---|
| BPE (Byte Pair Encoding) | GPT, Llama 4 | Häufige Zeichenpaare iterativ zusammenfassen |
| WordPiece | BERT | Ähnlich BPE, nutzt Likelihood statt Häufigkeit |
| SentencePiece | Llama 2, T5, Gemini | Sprachunabhängig, arbeitet auf Unicode |
Beispiel BPE:
"spielen" → ["spiel", "en"]
"Spielplatz" → ["Spiel", "platz"]
"unspielbar" → ["un", "spiel", "bar"]
Der Tokenizer wird separat vom Modell auf einem Textkorpus trainiert. Die Wahl des Trainingskorpus beeinflusst:
Tokenisierung ist wie das Zerlegen eines Satzes in Puzzleteile: Der Text wird in handhabbare Stücke geschnitten, die das Modell einzeln verarbeiten und wieder zusammensetzen kann.
Wandelt Rohtext in eine Sequenz von Token-IDs um, die das Modell verarbeiten kann
Verschiedene Verfahren: BPE, WordPiece, SentencePiece – jedes Modell hat seinen eigenen Tokenizer
Beeinflusst Kosten, Kontextlänge und Sprachqualität des Modells
LLM-Vorverarbeitung
Jeder Text muss tokenisiert werden, bevor ein LLM ihn verarbeiten kann
Kostenberechnung
API-Kosten basieren auf der Anzahl der Tokens nach Tokenisierung
Mehrsprachige Modelle
Der Tokenizer bestimmt, wie effizient verschiedene Sprachen verarbeitet werden
Wort-Tokenisierung hat Probleme: riesiges Vokabular nötig, unbekannte Wörter können nicht verarbeitet werden, zusammengesetzte Wörter (besonders im Deutschen) sind problematisch. Subword-Tokenisierung löst all diese Probleme.
Die meisten Tokenizer sind auf englischen Texten trainiert. Deutsche Wörter sind oft länger (Zusammensetzungen wie 'Krankenversicherung') und Umlaute brauchen extra Bytes. Deutsch benötigt ca. 30-50% mehr Tokens.
Die Art und Weise, wie Text tokenisiert wird, kann die Effizienz und Genauigkeit eines Sprachmodells erheblich beeinflussen. Eine gut durchdachte Tokenisierung hilft dem Modell, relevante Muster besser zu erkennen und zu verarbeiten.
Ja, viele Tokenisierungsalgorithmen ermöglichen Anpassungen, um spezifische Anforderungen zu erfüllen, wie z.B. das Hinzufügen von benutzerdefinierten Tokens oder das Ändern der Token-Länge. Dies kann besonders nützlich sein, um branchenspezifische Begriffe besser zu erfassen.