<EbeneX/>
LLM Grundlagen · Updated 17. Februar 2026

Tokenisierung

Definition

Der Prozess, bei dem Text in kleinere Einheiten (Tokens) zerlegt wird, bevor ein Sprachmodell ihn verarbeiten kann – der erste und entscheidende Schritt jeder NLP-Pipeline.

Fortgeschritten 2 Min. Lesezeit EN: Tokenization

Einfach erklärt

Tokenisierung ist der Prozess, bei dem Text in die kleinsten Einheiten zerlegt wird, die ein Sprachmodell verarbeiten kann. Ohne Tokenisierung kann kein LLM funktionieren – Modelle verstehen keine Buchstaben oder Wörter direkt, sondern nur Zahlen (Token-IDs).

Moderne Tokenizer wie BPE (Byte Pair Encoding) zerlegen Text nicht nach Wörtern, sondern nach häufigen Zeichenkombinationen. “Tokenisierung” wird zu [“Token”, “is”, “ierung”] – drei Tokens. Das hat praktische Konsequenzen: Englischer Text ist effizienter tokenisiert als Deutsch, weil Englisch kürzere Wörter hat. Code hat eigene Tokenisierungsmuster. Und Zahlen wie “12345” können als ein Token oder fünf separate Tokens kodiert werden – was erklärt, warum LLMs manchmal bei Arithmetik scheitern.

Verfahren im Vergleich:

VerfahrenVerwendet inPrinzip
BPE (Byte Pair Encoding)GPT, Llama 4Häufige Zeichenpaare iterativ zusammenfassen
WordPieceBERTÄhnlich BPE, nutzt Likelihood statt Häufigkeit
SentencePieceLlama 2, T5, GeminiSprachunabhängig, arbeitet auf Unicode

Beispiel BPE:

"spielen" → ["spiel", "en"]
"Spielplatz" → ["Spiel", "platz"]
"unspielbar" → ["un", "spiel", "bar"]

Technischer Deep Dive

BPE-Algorithmus

  1. Starte mit einzelnen Bytes/Zeichen als Vokabular
  2. Zähle alle benachbarten Paare im Trainingskorpus
  3. Merge das häufigste Paar zu einem neuen Token
  4. Wiederhole bis gewünschte Vokabulargröße erreicht (z.B. 100.000)

Tokenizer-Training

Der Tokenizer wird separat vom Modell auf einem Textkorpus trainiert. Die Wahl des Trainingskorpus beeinflusst:

  • Welche Sprachen effizient tokenisiert werden
  • Wie gut Fachbegriffe und Code verarbeitet werden
  • Die Gesamteffizienz (Tokens pro Wort)

Spezielle Herausforderungen

  • Zahlen: “123456” kann als ein oder mehrere Tokens dargestellt werden
  • Code: Einrückungen und Sonderzeichen brauchen spezielle Behandlung
  • Emoji: Können mehrere Tokens verbrauchen
  • Seltene Sprachen: Werden oft zeichenweise tokenisiert (sehr ineffizient)

Tokenisierung ist wie das Zerlegen eines Satzes in Puzzleteile: Der Text wird in handhabbare Stücke geschnitten, die das Modell einzeln verarbeiten und wieder zusammensetzen kann.

Wandelt Rohtext in eine Sequenz von Token-IDs um, die das Modell verarbeiten kann

Verschiedene Verfahren: BPE, WordPiece, SentencePiece – jedes Modell hat seinen eigenen Tokenizer

Beeinflusst Kosten, Kontextlänge und Sprachqualität des Modells

LLM-Vorverarbeitung

Jeder Text muss tokenisiert werden, bevor ein LLM ihn verarbeiten kann

Kostenberechnung

API-Kosten basieren auf der Anzahl der Tokens nach Tokenisierung

Mehrsprachige Modelle

Der Tokenizer bestimmt, wie effizient verschiedene Sprachen verarbeitet werden

Warum tokenisiert man nicht einfach nach Wörtern?

Wort-Tokenisierung hat Probleme: riesiges Vokabular nötig, unbekannte Wörter können nicht verarbeitet werden, zusammengesetzte Wörter (besonders im Deutschen) sind problematisch. Subword-Tokenisierung löst all diese Probleme.

Warum braucht Deutsch mehr Tokens als Englisch?

Die meisten Tokenizer sind auf englischen Texten trainiert. Deutsche Wörter sind oft länger (Zusammensetzungen wie 'Krankenversicherung') und Umlaute brauchen extra Bytes. Deutsch benötigt ca. 30-50% mehr Tokens.

Wie beeinflusst die Tokenisierung die Leistung eines Sprachmodells?

Die Art und Weise, wie Text tokenisiert wird, kann die Effizienz und Genauigkeit eines Sprachmodells erheblich beeinflussen. Eine gut durchdachte Tokenisierung hilft dem Modell, relevante Muster besser zu erkennen und zu verarbeiten.

Kann ich die Tokenisierung anpassen, um spezifische Anforderungen zu erfüllen?

Ja, viele Tokenisierungsalgorithmen ermöglichen Anpassungen, um spezifische Anforderungen zu erfüllen, wie z.B. das Hinzufügen von benutzerdefinierten Tokens oder das Ändern der Token-Länge. Dies kann besonders nützlich sein, um branchenspezifische Begriffe besser zu erfassen.

Dein persönliches Share-Bild für Instagram – 1080×1080px, bereit zum Posten.