Transformer: Revolutionäre KI-Architektur erklärt | KI-Glossar

ERKLÄRUNG

Einfach erklärt

Der Transformer ist eine Architektur für neuronale Netze, die 2017 von Google-Forschern vorgestellt wurde. Er hat die KI-Welt revolutioniert und ist die Grundlage für praktisch alle modernen Sprachmodelle.

Was macht den Transformer besonders?

Vor dem Transformer wurden Texte Wort für Wort verarbeitet (sequenziell). Das war langsam und machte es schwer, Zusammenhänge über lange Distanzen zu erkennen. Der Transformer löst beide Probleme:

Parallele Verarbeitung: Alle Wörter eines Satzes werden gleichzeitig verarbeitet
Self-Attention: Jedes Wort kann direkt auf jedes andere Wort “achten”

Ein Beispiel:

Im Satz “Die Katze, die auf dem Dach saß, sprang herunter” muss das Modell verstehen, dass “sprang” sich auf “Katze” bezieht, nicht auf “Dach”. Der Attention-Mechanismus erkennt diese Verbindung direkt, auch über mehrere Wörter hinweg.

Die zwei Transformer-Varianten:

Variante	Funktionsweise	Beispiele
Encoder	Versteht und analysiert Text	BERT, RoBERTa
Decoder	Generiert Text Token für Token	GPT, Llama, Gemini
Encoder-Decoder	Versteht Eingabe und generiert Ausgabe	T5, BART, Original-Transformer

Moderne LLMs wie GPT-5 und Llama 4 nutzen die Decoder-Variante: Sie sagen immer das nächste Token vorher, basierend auf allem, was davor kam.

Technischer Deep Dive

Die Architektur im Detail

Der Original-Transformer (Vaswani et al., 2017) besteht aus einem Encoder und einem Decoder, jeweils mit N gestapelten Blöcken.

Jeder Block enthält:

Multi-Head Self-Attention
Feed-Forward Network (zwei lineare Schichten mit Aktivierung)
Layer Normalization und Residual Connections

Self-Attention-Mechanismus

Der Kern des Transformers. Für jedes Token werden drei Vektoren berechnet:

Query (Q): “Wonach suche ich?”
Key (K): “Was biete ich an?”
Value (V): “Welche Information trage ich?”

Berechnung:

Attention(Q, K, V) = softmax(QK^T / √d_k) * V

QK^T berechnet die Ähnlichkeit zwischen allen Token-Paaren
√d_k skaliert die Werte, um stabile Gradienten zu gewährleisten
Softmax normalisiert zu Wahrscheinlichkeiten
Multiplikation mit V gewichtet die Informationen

Multi-Head Attention

Statt einer einzelnen Attention werden mehrere “Heads” parallel berechnet:

Jeder Head lernt andere Beziehungen (Syntax, Semantik, Koreferenz)
Typisch: 8-128 Heads
Ergebnisse werden konkateniert und linear projiziert

Positional Encoding

Da Transformer keine inhärente Reihenfolge kennen (anders als RNNs), wird die Position jedes Tokens explizit kodiert:

Sinusoidales Encoding (Original):

Feste mathematische Funktion basierend auf Sinus und Cosinus
Kann theoretisch auf beliebige Längen generalisieren

Rotary Position Embedding (RoPE):

Moderner Standard in LLMs (Llama, Mistral)
Kodiert relative Positionen durch Rotation der Q/K-Vektoren
Bessere Generalisierung auf längere Kontexte

Optimierungen für die Praxis

FlashAttention:

Reduziert Memory-Zugriffe durch Tiling-Algorithmus
2-4x schneller als naive Attention-Implementierung
Standard in modernen Training-Pipelines

KV-Cache:

Speichert Key/Value-Vektoren vorheriger Tokens bei der Generierung
Vermeidet redundante Berechnungen
Trade-off: Mehr Speicher, aber deutlich schnellere Inferenz

Grouped Query Attention (GQA):

Mehrere Query-Heads teilen sich Key/Value-Heads
Reduziert KV-Cache-Größe erheblich
Verwendet in Llama 2/3, Mistral

Sparse Attention:

Nicht jedes Token achtet auf jedes andere
Reduziert Komplexität von O(n²) auf O(n√n) oder O(n log n)
Ermöglicht längere Kontextfenster

Skalierung

Moderne Transformer-Modelle skalieren auf drei Achsen:

Breite: Dimension der Embeddings (d_model: 768 - 12288+)
Tiefe: Anzahl der Blöcke (12 - 96+)
Heads: Anzahl der Attention-Heads (12 - 128+)

Die Skalierungsgesetze (Chinchilla, 2022) zeigen: Für optimale Performance sollte die Datenmenge proportional zur Modellgröße skaliert werden – ca. 20 Tokens pro Parameter.

ANALOGIE

Ein Transformer ist wie ein Leser, der beim Verstehen eines Satzes nicht Wort für Wort vorgeht, sondern den gesamten Satz gleichzeitig überblickt und erkennt, welche Wörter zusammengehören – egal wie weit sie voneinander entfernt sind.

WICHTIGSTE PUNKTE

Basiert auf dem Self-Attention-Mechanismus statt auf sequenzieller Verarbeitung

Kann alle Eingaben parallel verarbeiten, was das Training massiv beschleunigt

Grundlage für GPT, BERT, Gemini, Llama und praktisch alle modernen KI-Modelle

ANWENDUNGSFÄLLE

Sprachmodelle

GPT, BERT, Llama und alle modernen LLMs basieren auf der Transformer-Architektur

Maschinelle Übersetzung

Google Translate und DeepL nutzen Transformer für hochwertige Übersetzungen

Bildgenerierung

Vision Transformer (ViT) und Diffusion Models nutzen Transformer-Komponenten

Code-Generierung

GitHub Copilot und ähnliche Tools basieren auf Transformer-Modellen

HÄUFIGE FRAGEN

Warum sind Transformer besser als RNNs?

Transformer verarbeiten alle Eingaben parallel statt sequenziell, was das Training viel schneller macht. Außerdem können sie durch Self-Attention Beziehungen zwischen weit entfernten Wörtern besser erfassen als RNNs, die unter dem Vanishing-Gradient-Problem leiden.

Was bedeutet 'Attention is All You Need'?

Das ist der Titel des bahnbrechenden Papers von 2017, das die Transformer-Architektur einführte. Die Aussage ist, dass der Attention-Mechanismus allein ausreicht, um Sequenzen zu verarbeiten – ohne die zuvor üblichen Recurrent- oder Convolutional-Schichten.

Warum skalieren Transformer so gut?

Transformer profitieren von Parallelisierung auf GPUs, vorhersagbaren Skalierungsgesetzen (mehr Parameter = bessere Performance) und der Fähigkeit, aus immer größeren Datenmengen zu lernen. Diese Eigenschaften machen sie ideal für das Training auf Rechenzentren.

Was ist der Nachteil von Transformern?

Der Hauptnachteil ist die quadratische Komplexität der Attention: Die Rechenkosten steigen quadratisch mit der Eingabelänge. Bei sehr langen Texten wird das teuer. Lösungen wie FlashAttention und Sparse Attention adressieren dieses Problem.

TOOLS & RESSOURCEN

Hugging Face Transformers

Die Standard-Bibliothek für vortrainierte Transformer-Modelle

PyTorch

Framework mit nativer Transformer-Unterstützung (nn.Transformer)

FlashAttention

Optimierte Attention-Implementierung für schnelleres Training

vLLM

Hochperformante Inferenz-Engine für Transformer-basierte LLMs

VERWANDTE BEGRIFFE

LLM Grundlagen

Large Language Model (LLM)

Ein KI-Modell, das auf riesigen Textmengen trainiert wurde und menschenähnliche Sprache verstehen und generieren kann.

Grundlagen

Neuronales Netz

Ein von biologischen Gehirnen inspiriertes Rechenmodell, das aus vernetzten künstlichen Neuronen besteht und Muster in Daten erkennen kann.

Grundlagen

Ein Teilbereich des Machine Learning, der tiefe künstliche neuronale Netze mit vielen Schichten nutzt, um komplexe Muster in großen Datenmengen zu erkennen.

Grundlagen LLM

Tokens

Die kleinsten Texteinheiten, in die ein Sprachmodell Text zerlegt – Wörter, Wortteile oder einzelne Zeichen, die das Modell verarbeiten kann.

LLM Grundlagen

Kontextfenster

Die maximale Menge an Text (gemessen in Tokens), die ein Sprachmodell gleichzeitig verarbeiten kann – bestehend aus Eingabe und Ausgabe zusammen.