Tokenizer (BPE/SentencePiece) einfach erklärt – Definition & Beispiele

ERKLÄRUNG

Einfach erklärt

LLMs lesen keinen Text – sie lesen Zahlen. Der Tokenizer ist der Übersetzer, der Text in eine Sequenz von Token-IDs umwandelt.

Wie funktioniert das?

Häufige Wörter wie “the” bleiben ganz. Seltene Wörter werden in Teile zerlegt:

Text:    "Künstliche Intelligenz"
Tokens:  ["Kün", "st", "liche", " Int", "ell", "igenz"]
IDs:     [42891, 267, 12994, 2558, 484, 23456]

Warum nicht einfach Wörter als Tokens?

Wörter-Vokabular wäre riesig (Millionen Wörter)
Unbekannte Wörter könnten nicht verarbeitet werden
BPE löst das: Festes Vokabular (32K-100K), jedes Wort aus Sub-Tokens zusammensetzbar

Praxis-Tipp:

Deutsche Texte brauchen oft mehr Tokens als englische – die meisten Tokenizer wurden auf Englisch trainiert. “Datenschutzgrundverordnung” wird in viele Sub-Tokens zerlegt, während “privacy” ein Token ist.

Warum ist das wichtig?

API-Kosten werden pro Token berechnet. Mehr Tokens = höhere Kosten. Ein effizienter Tokenizer spart Geld.

Technischer Deep Dive

BPE (Byte Pair Encoding)

Starte mit einzelnen Zeichen als Vokabular
Finde das häufigste Zeichenpaar → Füge als neues Token hinzu
Wiederhole bis Vokabulargröße erreicht

Schritt 1: ['t', 'h', 'e'] → 'th' kommt oft vor → neues Token 'th'
Schritt 2: ['th', 'e'] → 'the' kommt oft vor → neues Token 'the'
...
Ergebnis: Häufige Wörter = 1 Token, seltene = mehrere Sub-Tokens

SentencePiece

Arbeitet direkt auf Rohtext (kein Pre-Tokenizing nötig)
Behandelt Leerzeichen als normales Zeichen (▁)
Sprachunabhängig – funktioniert für Japanisch genauso wie für Deutsch
Standard für LLaMA, Mistral, T5

Vokabulargröße

Modell	Tokenizer	Vokabular
GPT-5	o200k_base (BPE)	200.019
LLaMA 2	SentencePiece	32.000
Mistral	SentencePiece	32.000
Gemma	SentencePiece	256.000

ANALOGIE

Ein Tokenizer ist wie ein Textzerkleinerer: Er zerhackt Wörter in Stücke die das Modell versteht. Häufige Wörter bleiben ganz ('the'), seltene werden zerlegt ('un-believ-able').

WICHTIGSTE PUNKTE

BPE: Lernt häufige Zeichenpaare und fasst sie zusammen – Bottom-up Ansatz

SentencePiece: Sprachunabhängiger Tokenizer, arbeitet direkt auf Rohtext

Vokabulargröße (32K-100K Tokens) beeinflusst Effizienz und Qualität

ANWENDUNGSFÄLLE

LLM-Preprocessing

Jeder Text muss tokenisiert werden bevor ein LLM ihn verarbeiten kann

Kosten-Berechnung

API-Kosten basieren auf Token-Anzahl – Tokenizer bestimmt die Kosten

Multilinguale Modelle

SentencePiece ermöglicht effiziente Tokenisierung für alle Sprachen

HÄUFIGE FRAGEN

Warum nicht einfach Wörter als Tokens nehmen?

Wort-basierte Tokenisierung hat ein riesiges Vokabular und kann unbekannte Wörter nicht verarbeiten. BPE hat ein festes Vokabular und kann jedes Wort aus Sub-Tokens zusammensetzen.

Warum brauchen deutsche Texte mehr Tokens als englische?

Die meisten Tokenizer wurden auf englischen Texten trainiert. Deutsche Wörter (Zusammensetzungen wie 'Datenschutzgrundverordnung') werden in mehr Sub-Tokens zerlegt.

Was sind die Hauptunterschiede zwischen BPE und SentencePiece?

BPE verwendet eine statistische Methode zur Tokenisierung, die häufig auf häufigen Byte-Paaren basiert, während SentencePiece eine unüberwachte Methode ist, die auf dem Konzept der Subwort-Tokenisierung basiert. SentencePiece kann flexibler sein und eignet sich besser für Sprachen mit komplexen Morphologien.

Wie wähle ich den richtigen Tokenizer für mein Projekt aus?

Die Wahl des Tokenizers hängt von der Art der Daten und der spezifischen Anwendung ab. BPE ist oft eine gute Wahl für Sprachen mit einer klaren Wortstruktur, während SentencePiece besser für Sprachen geeignet ist, die viele zusammengesetzte Wörter oder Variationen aufweisen.

TOOLS & RESSOURCEN

tiktoken

OpenAIs schneller BPE-Tokenizer für GPT-Modelle

SentencePiece

Googles sprachunabhängiger Tokenizer (LLaMA, T5)

Hugging Face Tokenizers

Schnelle Tokenizer-Bibliothek in Rust mit Python-Bindings

VERWANDTE BEGRIFFE

Grundlagen LLM

Tokens

Die kleinsten Texteinheiten, in die ein Sprachmodell Text zerlegt – Wörter, Wortteile oder einzelne Zeichen, die das Modell verarbeiten kann.

LLM Grundlagen

Tokenisierung

Der Prozess, bei dem Text in kleinere Einheiten (Tokens) zerlegt wird, bevor ein Sprachmodell ihn verarbeiten kann – der erste und entscheidende Schritt jeder NLP-Pipeline.

LLM Grundlagen

Kontextfenster

Die maximale Menge an Text (gemessen in Tokens), die ein Sprachmodell gleichzeitig verarbeiten kann – bestehend aus Eingabe und Ausgabe zusammen.

LLM Grundlagen

Large Language Model (LLM)

Ein KI-Modell, das auf riesigen Textmengen trainiert wurde und menschenähnliche Sprache verstehen und generieren kann.

Grundlagen Daten

Word2Vec / GloVe

Pionier-Verfahren, die Wörter als Vektoren darstellen – Word2Vec (Google, 2013) und GloVe (Stanford, 2014) legten den Grundstein für moderne Embeddings.

Tokenizer (BPE / SentencePiece)

Einfach erklärt

Technischer Deep Dive

BPE (Byte Pair Encoding)

SentencePiece

Vokabulargröße

Tokens

Tokenisierung

Kontextfenster

Large Language Model (LLM)

Word2Vec / GloVe