Attention Mechanism
Der Kernmechanismus moderner KI-Modelle – ermöglicht es einem Modell, sich auf die relevantesten Teile der Eingabe zu konzentrieren, statt alles gleich zu gewichten.
Eine Transformer-Architektur für Computer Vision, die Bilder in Patches aufteilt und wie Tokens verarbeitet – ohne Convolutional Layers.
Vision Transformer (ViT) hat 2020 die Computer Vision revolutioniert, indem er die Transformer-Architektur – ursprünglich für Text entwickelt – direkt auf Bilder angewendet hat. Statt spezialisierter Convolutional Layers teilt ViT ein Bild in gleichgroße Patches auf und verarbeitet diese wie eine Sequenz von Tokens.
Das klingt simpel, war aber ein Paradigmenwechsel. CNNs verarbeiten Bilder lokal – ein Filter schaut immer nur auf einen kleinen Bereich. ViT nutzt Self-Attention und kann von Anfang an globale Beziehungen im Bild erfassen: Der Patch oben links kann direkt mit dem Patch unten rechts interagieren. Das ermöglicht ein tieferes Bildverständnis, besonders bei komplexen Szenen.
Der Unterschied zu CNNs:
- CNN: Lokale Filter gleiten über das Bild, globaler Kontext entsteht durch viele Schichten
- ViT: Self-Attention erfasst globale Beziehungen direkt in jeder Schicht
- Vorteil CNN: Effizienter bei kleinen Datensätzen, Translation-Invarianz eingebaut
- Vorteil ViT: Besseres Skalierungsverhalten, flexibler für multimodale Anwendungen
Bild (224×224px)
↓ In Patches aufteilen (16×16px → 196 Patches)
↓ Jeden Patch linearisieren (16×16×3 = 768 Werte)
↓ Lineare Projektion → Patch-Embeddings
↓ + Positions-Embeddings (damit ViT weiß, wo jeder Patch war)
↓ + [CLS]-Token (für Klassifikation)
↓ Transformer Encoder (Multi-Head Attention + MLP)
↓ [CLS]-Token → Klassifikationskopf
↓ Klasse
| Modell | Parameter | Patch-Größe | Anmerkung |
|---|---|---|---|
| ViT-Tiny | 5M | 16×16 | Für Edge-Deployment |
| ViT-Small | 22M | 16×16 | Guter Kompromiss |
| ViT-Base | 86M | 16×16 | Standard-Referenz |
| ViT-Large | 307M | 16×16 | High Performance |
| ViT-Huge | 632M | 14×14 | State-of-the-Art |
DeiT (Data-efficient Image Transformers): Nutzt Knowledge Distillation, um ViT mit weniger Daten zu trainieren – ohne ImageNet-21k Pre-Training.
Swin Transformer: Hierarchische ViT-Variante mit verschiebbaren Fenstern. Effizienter für hochauflösende Bilder und dichte Vorhersageaufgaben (Segmentierung, Detection).
MAE (Masked Autoencoders): Self-supervised Pre-Training für ViT – ähnlich wie BERT für Text, aber für Bilder. Maskiert 75% der Patches und lernt, sie zu rekonstruieren.
Ein Vision Transformer betrachtet ein Bild wie ein Leser einen Text: Er teilt das Bild in kleine Kacheln (Patches) auf und analysiert, wie diese Kacheln zueinander in Beziehung stehen – genau wie Wörter in einem Satz.
Teilt Bilder in feste Patches auf und behandelt sie wie Text-Tokens
Nutzt Self-Attention statt Convolutions für globale Kontexterfassung
Basis für multimodale Modelle wie CLIP, GPT-5 und Gemini 3
Bildklassifikation
State-of-the-Art Genauigkeit auf ImageNet und anderen Benchmarks
Multimodale Modelle
ViT als Vision-Encoder in GPT-5, Claude 4.6 und Gemini 3
Medizinische Bildanalyse
Analyse von Röntgenbildern, MRTs und histologischen Schnitten
Autonomes Fahren
Szenenverständnis und Objekterkennung aus Kamerabildern
Kommt auf den Datensatz an. ViT braucht mehr Daten zum Trainieren, übertrifft CNNs aber bei großen Datensätzen deutlich. Mit Techniken wie DeiT (Data-efficient Image Transformers) funktioniert ViT auch mit weniger Daten gut.
ViT-Base hat 86M Parameter, ViT-Large 307M, ViT-Huge 632M. Für Produktionsanwendungen gibt es kleinere Varianten wie ViT-Small (22M) und ViT-Tiny (5M).
ViT erzeugt Bild-Embeddings im selben Vektorraum wie Text-Embeddings. Das macht es einfach, Bilder und Text gemeinsam zu verarbeiten – der Transformer 'sieht' Bild-Patches wie zusätzliche Tokens.