Tokens
Die kleinsten Texteinheiten, in die ein Sprachmodell Text zerlegt – Wörter, Wortteile oder einzelne Zeichen, die das Modell verarbeiten kann.
Algorithmen die Text in Tokens zerlegen – BPE (Byte Pair Encoding) und SentencePiece sind die Standards hinter GPT, LLaMA und den meisten modernen LLMs.
LLMs lesen keinen Text – sie lesen Zahlen. Der Tokenizer ist der Übersetzer, der Text in eine Sequenz von Token-IDs umwandelt.
Wie funktioniert das?
Häufige Wörter wie “the” bleiben ganz. Seltene Wörter werden in Teile zerlegt:
Text: "Künstliche Intelligenz"
Tokens: ["Kün", "st", "liche", " Int", "ell", "igenz"]
IDs: [42891, 267, 12994, 2558, 484, 23456]
Warum nicht einfach Wörter als Tokens?
Praxis-Tipp:
Deutsche Texte brauchen oft mehr Tokens als englische – die meisten Tokenizer wurden auf Englisch trainiert. “Datenschutzgrundverordnung” wird in viele Sub-Tokens zerlegt, während “privacy” ein Token ist.
Warum ist das wichtig?
API-Kosten werden pro Token berechnet. Mehr Tokens = höhere Kosten. Ein effizienter Tokenizer spart Geld.
Schritt 1: ['t', 'h', 'e'] → 'th' kommt oft vor → neues Token 'th'
Schritt 2: ['th', 'e'] → 'the' kommt oft vor → neues Token 'the'
...
Ergebnis: Häufige Wörter = 1 Token, seltene = mehrere Sub-Tokens
| Modell | Tokenizer | Vokabular |
|---|---|---|
| GPT-5 | o200k_base (BPE) | 200.019 |
| LLaMA 2 | SentencePiece | 32.000 |
| Mistral | SentencePiece | 32.000 |
| Gemma | SentencePiece | 256.000 |
Ein Tokenizer ist wie ein Textzerkleinerer: Er zerhackt Wörter in Stücke die das Modell versteht. Häufige Wörter bleiben ganz ('the'), seltene werden zerlegt ('un-believ-able').
BPE: Lernt häufige Zeichenpaare und fasst sie zusammen – Bottom-up Ansatz
SentencePiece: Sprachunabhängiger Tokenizer, arbeitet direkt auf Rohtext
Vokabulargröße (32K-100K Tokens) beeinflusst Effizienz und Qualität
LLM-Preprocessing
Jeder Text muss tokenisiert werden bevor ein LLM ihn verarbeiten kann
Kosten-Berechnung
API-Kosten basieren auf Token-Anzahl – Tokenizer bestimmt die Kosten
Multilinguale Modelle
SentencePiece ermöglicht effiziente Tokenisierung für alle Sprachen
Wort-basierte Tokenisierung hat ein riesiges Vokabular und kann unbekannte Wörter nicht verarbeiten. BPE hat ein festes Vokabular und kann jedes Wort aus Sub-Tokens zusammensetzen.
Die meisten Tokenizer wurden auf englischen Texten trainiert. Deutsche Wörter (Zusammensetzungen wie 'Datenschutzgrundverordnung') werden in mehr Sub-Tokens zerlegt.
BPE verwendet eine statistische Methode zur Tokenisierung, die häufig auf häufigen Byte-Paaren basiert, während SentencePiece eine unüberwachte Methode ist, die auf dem Konzept der Subwort-Tokenisierung basiert. SentencePiece kann flexibler sein und eignet sich besser für Sprachen mit komplexen Morphologien.
Die Wahl des Tokenizers hängt von der Art der Daten und der spezifischen Anwendung ab. BPE ist oft eine gute Wahl für Sprachen mit einer klaren Wortstruktur, während SentencePiece besser für Sprachen geeignet ist, die viele zusammengesetzte Wörter oder Variationen aufweisen.