<EbeneX/>
Architektur LLM · Updated 3. März 2026

Transformer

Definition

Eine revolutionäre neuronale Netzwerk-Architektur, die auf dem Attention-Mechanismus basiert und die Grundlage für moderne Sprachmodelle wie GPT und BERT bildet.

Experte 3 Min. Lesezeit EN: Transformer

Einfach erklärt

Der Transformer ist eine Architektur für neuronale Netze, die 2017 von Google-Forschern vorgestellt wurde. Er hat die KI-Welt revolutioniert und ist die Grundlage für praktisch alle modernen Sprachmodelle.

Was macht den Transformer besonders?

Vor dem Transformer wurden Texte Wort für Wort verarbeitet (sequenziell). Das war langsam und machte es schwer, Zusammenhänge über lange Distanzen zu erkennen. Der Transformer löst beide Probleme:

  1. Parallele Verarbeitung: Alle Wörter eines Satzes werden gleichzeitig verarbeitet
  2. Self-Attention: Jedes Wort kann direkt auf jedes andere Wort “achten”

Ein Beispiel:

Im Satz “Die Katze, die auf dem Dach saß, sprang herunter” muss das Modell verstehen, dass “sprang” sich auf “Katze” bezieht, nicht auf “Dach”. Der Attention-Mechanismus erkennt diese Verbindung direkt, auch über mehrere Wörter hinweg.

Die zwei Transformer-Varianten:

VarianteFunktionsweiseBeispiele
EncoderVersteht und analysiert TextBERT, RoBERTa
DecoderGeneriert Text Token für TokenGPT, Llama, Gemini
Encoder-DecoderVersteht Eingabe und generiert AusgabeT5, BART, Original-Transformer

Moderne LLMs wie GPT-5 und Llama 4 nutzen die Decoder-Variante: Sie sagen immer das nächste Token vorher, basierend auf allem, was davor kam.

Technischer Deep Dive

Die Architektur im Detail

Der Original-Transformer (Vaswani et al., 2017) besteht aus einem Encoder und einem Decoder, jeweils mit N gestapelten Blöcken.

Jeder Block enthält:

  1. Multi-Head Self-Attention
  2. Feed-Forward Network (zwei lineare Schichten mit Aktivierung)
  3. Layer Normalization und Residual Connections

Self-Attention-Mechanismus

Der Kern des Transformers. Für jedes Token werden drei Vektoren berechnet:

  • Query (Q): “Wonach suche ich?”
  • Key (K): “Was biete ich an?”
  • Value (V): “Welche Information trage ich?”

Berechnung:

Attention(Q, K, V) = softmax(QK^T / √d_k) * V
  • QK^T berechnet die Ähnlichkeit zwischen allen Token-Paaren
  • √d_k skaliert die Werte, um stabile Gradienten zu gewährleisten
  • Softmax normalisiert zu Wahrscheinlichkeiten
  • Multiplikation mit V gewichtet die Informationen

Multi-Head Attention

Statt einer einzelnen Attention werden mehrere “Heads” parallel berechnet:

  • Jeder Head lernt andere Beziehungen (Syntax, Semantik, Koreferenz)
  • Typisch: 8-128 Heads
  • Ergebnisse werden konkateniert und linear projiziert

Positional Encoding

Da Transformer keine inhärente Reihenfolge kennen (anders als RNNs), wird die Position jedes Tokens explizit kodiert:

Sinusoidales Encoding (Original):

  • Feste mathematische Funktion basierend auf Sinus und Cosinus
  • Kann theoretisch auf beliebige Längen generalisieren

Rotary Position Embedding (RoPE):

  • Moderner Standard in LLMs (Llama, Mistral)
  • Kodiert relative Positionen durch Rotation der Q/K-Vektoren
  • Bessere Generalisierung auf längere Kontexte

Optimierungen für die Praxis

FlashAttention:

  • Reduziert Memory-Zugriffe durch Tiling-Algorithmus
  • 2-4x schneller als naive Attention-Implementierung
  • Standard in modernen Training-Pipelines

KV-Cache:

  • Speichert Key/Value-Vektoren vorheriger Tokens bei der Generierung
  • Vermeidet redundante Berechnungen
  • Trade-off: Mehr Speicher, aber deutlich schnellere Inferenz

Grouped Query Attention (GQA):

  • Mehrere Query-Heads teilen sich Key/Value-Heads
  • Reduziert KV-Cache-Größe erheblich
  • Verwendet in Llama 2/3, Mistral

Sparse Attention:

  • Nicht jedes Token achtet auf jedes andere
  • Reduziert Komplexität von O(n²) auf O(n√n) oder O(n log n)
  • Ermöglicht längere Kontextfenster

Skalierung

Moderne Transformer-Modelle skalieren auf drei Achsen:

  • Breite: Dimension der Embeddings (d_model: 768 - 12288+)
  • Tiefe: Anzahl der Blöcke (12 - 96+)
  • Heads: Anzahl der Attention-Heads (12 - 128+)

Die Skalierungsgesetze (Chinchilla, 2022) zeigen: Für optimale Performance sollte die Datenmenge proportional zur Modellgröße skaliert werden – ca. 20 Tokens pro Parameter.

Ein Transformer ist wie ein Leser, der beim Verstehen eines Satzes nicht Wort für Wort vorgeht, sondern den gesamten Satz gleichzeitig überblickt und erkennt, welche Wörter zusammengehören – egal wie weit sie voneinander entfernt sind.

Basiert auf dem Self-Attention-Mechanismus statt auf sequenzieller Verarbeitung

Kann alle Eingaben parallel verarbeiten, was das Training massiv beschleunigt

Grundlage für GPT, BERT, Gemini, Llama und praktisch alle modernen KI-Modelle

Sprachmodelle

GPT, BERT, Llama und alle modernen LLMs basieren auf der Transformer-Architektur

Maschinelle Übersetzung

Google Translate und DeepL nutzen Transformer für hochwertige Übersetzungen

Bildgenerierung

Vision Transformer (ViT) und Diffusion Models nutzen Transformer-Komponenten

Code-Generierung

GitHub Copilot und ähnliche Tools basieren auf Transformer-Modellen

Warum sind Transformer besser als RNNs?

Transformer verarbeiten alle Eingaben parallel statt sequenziell, was das Training viel schneller macht. Außerdem können sie durch Self-Attention Beziehungen zwischen weit entfernten Wörtern besser erfassen als RNNs, die unter dem Vanishing-Gradient-Problem leiden.

Was bedeutet 'Attention is All You Need'?

Das ist der Titel des bahnbrechenden Papers von 2017, das die Transformer-Architektur einführte. Die Aussage ist, dass der Attention-Mechanismus allein ausreicht, um Sequenzen zu verarbeiten – ohne die zuvor üblichen Recurrent- oder Convolutional-Schichten.

Warum skalieren Transformer so gut?

Transformer profitieren von Parallelisierung auf GPUs, vorhersagbaren Skalierungsgesetzen (mehr Parameter = bessere Performance) und der Fähigkeit, aus immer größeren Datenmengen zu lernen. Diese Eigenschaften machen sie ideal für das Training auf Rechenzentren.

Was ist der Nachteil von Transformern?

Der Hauptnachteil ist die quadratische Komplexität der Attention: Die Rechenkosten steigen quadratisch mit der Eingabelänge. Bei sehr langen Texten wird das teuer. Lösungen wie FlashAttention und Sparse Attention adressieren dieses Problem.

Dein persönliches Share-Bild für Instagram – 1080×1080px, bereit zum Posten.