Large Language Model (LLM)
Ein KI-Modell, das auf riesigen Textmengen trainiert wurde und menschenähnliche Sprache verstehen und generieren kann.
Eine revolutionäre neuronale Netzwerk-Architektur, die auf dem Attention-Mechanismus basiert und die Grundlage für moderne Sprachmodelle wie GPT und BERT bildet.
Der Transformer ist eine Architektur für neuronale Netze, die 2017 von Google-Forschern vorgestellt wurde. Er hat die KI-Welt revolutioniert und ist die Grundlage für praktisch alle modernen Sprachmodelle.
Was macht den Transformer besonders?
Vor dem Transformer wurden Texte Wort für Wort verarbeitet (sequenziell). Das war langsam und machte es schwer, Zusammenhänge über lange Distanzen zu erkennen. Der Transformer löst beide Probleme:
Ein Beispiel:
Im Satz “Die Katze, die auf dem Dach saß, sprang herunter” muss das Modell verstehen, dass “sprang” sich auf “Katze” bezieht, nicht auf “Dach”. Der Attention-Mechanismus erkennt diese Verbindung direkt, auch über mehrere Wörter hinweg.
Die zwei Transformer-Varianten:
| Variante | Funktionsweise | Beispiele |
|---|---|---|
| Encoder | Versteht und analysiert Text | BERT, RoBERTa |
| Decoder | Generiert Text Token für Token | GPT, Llama, Gemini |
| Encoder-Decoder | Versteht Eingabe und generiert Ausgabe | T5, BART, Original-Transformer |
Moderne LLMs wie GPT-5 und Llama 4 nutzen die Decoder-Variante: Sie sagen immer das nächste Token vorher, basierend auf allem, was davor kam.
Der Original-Transformer (Vaswani et al., 2017) besteht aus einem Encoder und einem Decoder, jeweils mit N gestapelten Blöcken.
Jeder Block enthält:
Der Kern des Transformers. Für jedes Token werden drei Vektoren berechnet:
Berechnung:
Attention(Q, K, V) = softmax(QK^T / √d_k) * V
Statt einer einzelnen Attention werden mehrere “Heads” parallel berechnet:
Da Transformer keine inhärente Reihenfolge kennen (anders als RNNs), wird die Position jedes Tokens explizit kodiert:
Sinusoidales Encoding (Original):
Rotary Position Embedding (RoPE):
FlashAttention:
Grouped Query Attention (GQA):
Moderne Transformer-Modelle skalieren auf drei Achsen:
Die Skalierungsgesetze (Chinchilla, 2022) zeigen: Für optimale Performance sollte die Datenmenge proportional zur Modellgröße skaliert werden – ca. 20 Tokens pro Parameter.
Ein Transformer ist wie ein Leser, der beim Verstehen eines Satzes nicht Wort für Wort vorgeht, sondern den gesamten Satz gleichzeitig überblickt und erkennt, welche Wörter zusammengehören – egal wie weit sie voneinander entfernt sind.
Basiert auf dem Self-Attention-Mechanismus statt auf sequenzieller Verarbeitung
Kann alle Eingaben parallel verarbeiten, was das Training massiv beschleunigt
Grundlage für GPT, BERT, Gemini, Llama und praktisch alle modernen KI-Modelle
Sprachmodelle
GPT, BERT, Llama und alle modernen LLMs basieren auf der Transformer-Architektur
Maschinelle Übersetzung
Google Translate und DeepL nutzen Transformer für hochwertige Übersetzungen
Bildgenerierung
Vision Transformer (ViT) und Diffusion Models nutzen Transformer-Komponenten
Code-Generierung
GitHub Copilot und ähnliche Tools basieren auf Transformer-Modellen
Transformer verarbeiten alle Eingaben parallel statt sequenziell, was das Training viel schneller macht. Außerdem können sie durch Self-Attention Beziehungen zwischen weit entfernten Wörtern besser erfassen als RNNs, die unter dem Vanishing-Gradient-Problem leiden.
Das ist der Titel des bahnbrechenden Papers von 2017, das die Transformer-Architektur einführte. Die Aussage ist, dass der Attention-Mechanismus allein ausreicht, um Sequenzen zu verarbeiten – ohne die zuvor üblichen Recurrent- oder Convolutional-Schichten.
Transformer profitieren von Parallelisierung auf GPUs, vorhersagbaren Skalierungsgesetzen (mehr Parameter = bessere Performance) und der Fähigkeit, aus immer größeren Datenmengen zu lernen. Diese Eigenschaften machen sie ideal für das Training auf Rechenzentren.
Der Hauptnachteil ist die quadratische Komplexität der Attention: Die Rechenkosten steigen quadratisch mit der Eingabelänge. Bei sehr langen Texten wird das teuer. Lösungen wie FlashAttention und Sparse Attention adressieren dieses Problem.
Die Standard-Bibliothek für vortrainierte Transformer-Modelle
Framework mit nativer Transformer-Unterstützung (nn.Transformer)
Optimierte Attention-Implementierung für schnelleres Training
Hochperformante Inferenz-Engine für Transformer-basierte LLMs