<EbeneX/>
Grundlagen LLM · Updated 18. Februar 2026

Tokenizer (BPE / SentencePiece)

Definition

Algorithmen die Text in Tokens zerlegen – BPE (Byte Pair Encoding) und SentencePiece sind die Standards hinter GPT, LLaMA und den meisten modernen LLMs.

Fortgeschritten 2 Min. Lesezeit EN: Tokenizer (BPE / SentencePiece)

Einfach erklärt

LLMs lesen keinen Text – sie lesen Zahlen. Der Tokenizer ist der Übersetzer, der Text in eine Sequenz von Token-IDs umwandelt.

Wie funktioniert das?

Häufige Wörter wie “the” bleiben ganz. Seltene Wörter werden in Teile zerlegt:

Text:    "Künstliche Intelligenz"
Tokens:  ["Kün", "st", "liche", " Int", "ell", "igenz"]
IDs:     [42891, 267, 12994, 2558, 484, 23456]

Warum nicht einfach Wörter als Tokens?

  • Wörter-Vokabular wäre riesig (Millionen Wörter)
  • Unbekannte Wörter könnten nicht verarbeitet werden
  • BPE löst das: Festes Vokabular (32K-100K), jedes Wort aus Sub-Tokens zusammensetzbar

Praxis-Tipp:

Deutsche Texte brauchen oft mehr Tokens als englische – die meisten Tokenizer wurden auf Englisch trainiert. “Datenschutzgrundverordnung” wird in viele Sub-Tokens zerlegt, während “privacy” ein Token ist.

Warum ist das wichtig?

API-Kosten werden pro Token berechnet. Mehr Tokens = höhere Kosten. Ein effizienter Tokenizer spart Geld.

Technischer Deep Dive

BPE (Byte Pair Encoding)

  1. Starte mit einzelnen Zeichen als Vokabular
  2. Finde das häufigste Zeichenpaar → Füge als neues Token hinzu
  3. Wiederhole bis Vokabulargröße erreicht
Schritt 1: ['t', 'h', 'e'] → 'th' kommt oft vor → neues Token 'th'
Schritt 2: ['th', 'e'] → 'the' kommt oft vor → neues Token 'the'
...
Ergebnis: Häufige Wörter = 1 Token, seltene = mehrere Sub-Tokens

SentencePiece

  • Arbeitet direkt auf Rohtext (kein Pre-Tokenizing nötig)
  • Behandelt Leerzeichen als normales Zeichen (▁)
  • Sprachunabhängig – funktioniert für Japanisch genauso wie für Deutsch
  • Standard für LLaMA, Mistral, T5

Vokabulargröße

ModellTokenizerVokabular
GPT-5o200k_base (BPE)200.019
LLaMA 2SentencePiece32.000
MistralSentencePiece32.000
GemmaSentencePiece256.000

Ein Tokenizer ist wie ein Textzerkleinerer: Er zerhackt Wörter in Stücke die das Modell versteht. Häufige Wörter bleiben ganz ('the'), seltene werden zerlegt ('un-believ-able').

BPE: Lernt häufige Zeichenpaare und fasst sie zusammen – Bottom-up Ansatz

SentencePiece: Sprachunabhängiger Tokenizer, arbeitet direkt auf Rohtext

Vokabulargröße (32K-100K Tokens) beeinflusst Effizienz und Qualität

LLM-Preprocessing

Jeder Text muss tokenisiert werden bevor ein LLM ihn verarbeiten kann

Kosten-Berechnung

API-Kosten basieren auf Token-Anzahl – Tokenizer bestimmt die Kosten

Multilinguale Modelle

SentencePiece ermöglicht effiziente Tokenisierung für alle Sprachen

Warum nicht einfach Wörter als Tokens nehmen?

Wort-basierte Tokenisierung hat ein riesiges Vokabular und kann unbekannte Wörter nicht verarbeiten. BPE hat ein festes Vokabular und kann jedes Wort aus Sub-Tokens zusammensetzen.

Warum brauchen deutsche Texte mehr Tokens als englische?

Die meisten Tokenizer wurden auf englischen Texten trainiert. Deutsche Wörter (Zusammensetzungen wie 'Datenschutzgrundverordnung') werden in mehr Sub-Tokens zerlegt.

Was sind die Hauptunterschiede zwischen BPE und SentencePiece?

BPE verwendet eine statistische Methode zur Tokenisierung, die häufig auf häufigen Byte-Paaren basiert, während SentencePiece eine unüberwachte Methode ist, die auf dem Konzept der Subwort-Tokenisierung basiert. SentencePiece kann flexibler sein und eignet sich besser für Sprachen mit komplexen Morphologien.

Wie wähle ich den richtigen Tokenizer für mein Projekt aus?

Die Wahl des Tokenizers hängt von der Art der Daten und der spezifischen Anwendung ab. BPE ist oft eine gute Wahl für Sprachen mit einer klaren Wortstruktur, während SentencePiece besser für Sprachen geeignet ist, die viele zusammengesetzte Wörter oder Variationen aufweisen.

Dein persönliches Share-Bild für Instagram – 1080×1080px, bereit zum Posten.