<EbeneX/>
Architektur Bild-KI · Updated 3. März 2026

Vision Transformer (ViT)

Definition

Eine Transformer-Architektur für Computer Vision, die Bilder in Patches aufteilt und wie Tokens verarbeitet – ohne Convolutional Layers.

Experte 2 Min. Lesezeit EN: Vision Transformer (ViT)

Einfach erklärt

Vision Transformer (ViT) hat 2020 die Computer Vision revolutioniert, indem er die Transformer-Architektur – ursprünglich für Text entwickelt – direkt auf Bilder angewendet hat. Statt spezialisierter Convolutional Layers teilt ViT ein Bild in gleichgroße Patches auf und verarbeitet diese wie eine Sequenz von Tokens.

Das klingt simpel, war aber ein Paradigmenwechsel. CNNs verarbeiten Bilder lokal – ein Filter schaut immer nur auf einen kleinen Bereich. ViT nutzt Self-Attention und kann von Anfang an globale Beziehungen im Bild erfassen: Der Patch oben links kann direkt mit dem Patch unten rechts interagieren. Das ermöglicht ein tieferes Bildverständnis, besonders bei komplexen Szenen.

Der Unterschied zu CNNs:

  • CNN: Lokale Filter gleiten über das Bild, globaler Kontext entsteht durch viele Schichten
  • ViT: Self-Attention erfasst globale Beziehungen direkt in jeder Schicht
  • Vorteil CNN: Effizienter bei kleinen Datensätzen, Translation-Invarianz eingebaut
  • Vorteil ViT: Besseres Skalierungsverhalten, flexibler für multimodale Anwendungen

Technischer Deep Dive

Wie ViT funktioniert

Bild (224×224px)
    ↓ In Patches aufteilen (16×16px → 196 Patches)
    ↓ Jeden Patch linearisieren (16×16×3 = 768 Werte)
    ↓ Lineare Projektion → Patch-Embeddings
    ↓ + Positions-Embeddings (damit ViT weiß, wo jeder Patch war)
    ↓ + [CLS]-Token (für Klassifikation)
    ↓ Transformer Encoder (Multi-Head Attention + MLP)
    ↓ [CLS]-Token → Klassifikationskopf
    ↓ Klasse

ViT-Varianten

ModellParameterPatch-GrößeAnmerkung
ViT-Tiny5M16×16Für Edge-Deployment
ViT-Small22M16×16Guter Kompromiss
ViT-Base86M16×16Standard-Referenz
ViT-Large307M16×16High Performance
ViT-Huge632M14×14State-of-the-Art

Weiterentwicklungen

DeiT (Data-efficient Image Transformers): Nutzt Knowledge Distillation, um ViT mit weniger Daten zu trainieren – ohne ImageNet-21k Pre-Training.

Swin Transformer: Hierarchische ViT-Variante mit verschiebbaren Fenstern. Effizienter für hochauflösende Bilder und dichte Vorhersageaufgaben (Segmentierung, Detection).

MAE (Masked Autoencoders): Self-supervised Pre-Training für ViT – ähnlich wie BERT für Text, aber für Bilder. Maskiert 75% der Patches und lernt, sie zu rekonstruieren.

Ein Vision Transformer betrachtet ein Bild wie ein Leser einen Text: Er teilt das Bild in kleine Kacheln (Patches) auf und analysiert, wie diese Kacheln zueinander in Beziehung stehen – genau wie Wörter in einem Satz.

Teilt Bilder in feste Patches auf und behandelt sie wie Text-Tokens

Nutzt Self-Attention statt Convolutions für globale Kontexterfassung

Basis für multimodale Modelle wie CLIP, GPT-5 und Gemini 3

Bildklassifikation

State-of-the-Art Genauigkeit auf ImageNet und anderen Benchmarks

Multimodale Modelle

ViT als Vision-Encoder in GPT-5, Claude 4.6 und Gemini 3

Medizinische Bildanalyse

Analyse von Röntgenbildern, MRTs und histologischen Schnitten

Autonomes Fahren

Szenenverständnis und Objekterkennung aus Kamerabildern

Ist ViT besser als CNN?

Kommt auf den Datensatz an. ViT braucht mehr Daten zum Trainieren, übertrifft CNNs aber bei großen Datensätzen deutlich. Mit Techniken wie DeiT (Data-efficient Image Transformers) funktioniert ViT auch mit weniger Daten gut.

Wie groß sind ViT-Modelle?

ViT-Base hat 86M Parameter, ViT-Large 307M, ViT-Huge 632M. Für Produktionsanwendungen gibt es kleinere Varianten wie ViT-Small (22M) und ViT-Tiny (5M).

Warum nutzen multimodale Modelle ViT?

ViT erzeugt Bild-Embeddings im selben Vektorraum wie Text-Embeddings. Das macht es einfach, Bilder und Text gemeinsam zu verarbeiten – der Transformer 'sieht' Bild-Patches wie zusätzliche Tokens.

Dein persönliches Share-Bild für Instagram – 1080×1080px, bereit zum Posten.