Transformer
Eine revolutionäre neuronale Netzwerk-Architektur, die auf dem Attention-Mechanismus basiert und die Grundlage für moderne Sprachmodelle wie GPT und BERT bildet.
Der Kernmechanismus moderner KI-Modelle – ermöglicht es einem Modell, sich auf die relevantesten Teile der Eingabe zu konzentrieren, statt alles gleich zu gewichten.
Der Attention-Mechanismus ist die technologische Grundlage der Transformer-Revolution. Er ermöglicht es einem Modell, bei der Verarbeitung jedes Tokens zu “schauen”, welche anderen Tokens im Kontext relevant sind – und ihre Information gewichtet einzubeziehen. Das löste das fundamentale Problem von RNNs: Lange Abhängigkeiten gingen verloren, weil Information sequenziell durch das Netz fließen musste. Mit Attention kann jedes Token direkt auf jedes andere Token zugreifen.
Attention ist der Kernmechanismus moderner KI-Modelle. Er beantwortet die Frage: Welche Teile der Eingabe sind für die aktuelle Aufgabe am wichtigsten?
Warum ist das revolutionär?
Vor Attention mussten RNNs Information sequenziell verarbeiten – lange Abhängigkeiten gingen verloren. Attention ermöglicht direkte Verbindungen zwischen beliebigen Positionen.
Beispiel:
Eingabe: "Die Katze saß auf der Matte, weil sie müde war."
Frage: Worauf bezieht sich "sie"?
Attention-Gewichte:
Die [0.02] Katze [0.85] saß [0.01] auf [0.01] der [0.01]
Matte [0.05] weil [0.01] sie [*] müde [0.02] war [0.02]
=> "sie" hat hohe Attention auf "Katze" (0.85)
Jedes Token wird in drei Vektoren transformiert:
Attention(Q, K, V) = softmax(QK^T / √d_k) · V
Statt einer Attention-Berechnung laufen mehrere parallel:
Attention ist wie Lesen mit einem Textmarker: Statt jeden Satz gleich zu behandeln, markierst du die wichtigsten Stellen. Das Modell lernt automatisch, welche Wörter für die aktuelle Aufgabe am relevantesten sind.
Self-Attention: Jedes Token berechnet seine Beziehung zu allen anderen Tokens im Kontext
Multi-Head Attention: Mehrere parallele Attention-Köpfe erfassen verschiedene Beziehungstypen
Grundlage des Transformer-Papers 'Attention Is All You Need' (2017)
Maschinelle Übersetzung
Attention verbindet Quell- und Zielwörter korrekt (z.B. Wortstellung Deutsch→Englisch)
Textzusammenfassung
Modell fokussiert auf die wichtigsten Sätze eines langen Dokuments
Code-Verständnis
Variablenreferenzen über hunderte Zeilen hinweg verfolgen
Bildverständnis
Vision Transformers nutzen Attention auf Bildregionen statt Wörter
Vor Attention mussten RNNs Information sequentiell verarbeiten – lange Abhängigkeiten gingen verloren. Attention ermöglicht direkte Verbindungen zwischen beliebigen Positionen, egal wie weit entfernt.
Das berühmte Paper von 2017 zeigte, dass man nur Attention braucht (ohne RNNs oder CNNs) um State-of-the-Art-Ergebnisse zu erzielen. Das war die Geburt des Transformers.
Der Attention Mechanism funktioniert, indem er für jedes Element in der Eingabe ein Gewicht berechnet, das angibt, wie wichtig es für die aktuelle Aufgabe ist. Diese Gewichte werden dann verwendet, um die Eingabe zu gewichten und die relevantesten Informationen hervorzuheben.
Der Attention Mechanism ermöglicht es Modellen, kontextuelle Informationen besser zu berücksichtigen und sich auf relevante Teile der Eingabe zu konzentrieren. Dies führt zu einer verbesserten Leistung bei Aufgaben wie maschinellem Übersetzen und Textverständnis.