Vision Transformer (ViT): Transformer-Architektur für Bilder

ERKLÄRUNG

Einfach erklärt

Vision Transformer (ViT) hat 2020 die Computer Vision revolutioniert, indem er die Transformer-Architektur – ursprünglich für Text entwickelt – direkt auf Bilder angewendet hat. Statt spezialisierter Convolutional Layers teilt ViT ein Bild in gleichgroße Patches auf und verarbeitet diese wie eine Sequenz von Tokens.

Das klingt simpel, war aber ein Paradigmenwechsel. CNNs verarbeiten Bilder lokal – ein Filter schaut immer nur auf einen kleinen Bereich. ViT nutzt Self-Attention und kann von Anfang an globale Beziehungen im Bild erfassen: Der Patch oben links kann direkt mit dem Patch unten rechts interagieren. Das ermöglicht ein tieferes Bildverständnis, besonders bei komplexen Szenen.

Der Unterschied zu CNNs:

CNN: Lokale Filter gleiten über das Bild, globaler Kontext entsteht durch viele Schichten

ViT: Self-Attention erfasst globale Beziehungen direkt in jeder Schicht

Vorteil CNN: Effizienter bei kleinen Datensätzen, Translation-Invarianz eingebaut

Vorteil ViT: Besseres Skalierungsverhalten, flexibler für multimodale Anwendungen

Technischer Deep Dive

Wie ViT funktioniert

Bild (224×224px)
    ↓ In Patches aufteilen (16×16px → 196 Patches)
    ↓ Jeden Patch linearisieren (16×16×3 = 768 Werte)
    ↓ Lineare Projektion → Patch-Embeddings
    ↓ + Positions-Embeddings (damit ViT weiß, wo jeder Patch war)
    ↓ + [CLS]-Token (für Klassifikation)
    ↓ Transformer Encoder (Multi-Head Attention + MLP)
    ↓ [CLS]-Token → Klassifikationskopf
    ↓ Klasse

ViT-Varianten

Modell	Parameter	Patch-Größe	Anmerkung
ViT-Tiny	5M	16×16	Für Edge-Deployment
ViT-Small	22M	16×16	Guter Kompromiss
ViT-Base	86M	16×16	Standard-Referenz
ViT-Large	307M	16×16	High Performance
ViT-Huge	632M	14×14	State-of-the-Art

Weiterentwicklungen

DeiT (Data-efficient Image Transformers): Nutzt Knowledge Distillation, um ViT mit weniger Daten zu trainieren – ohne ImageNet-21k Pre-Training.

Swin Transformer: Hierarchische ViT-Variante mit verschiebbaren Fenstern. Effizienter für hochauflösende Bilder und dichte Vorhersageaufgaben (Segmentierung, Detection).

MAE (Masked Autoencoders): Self-supervised Pre-Training für ViT – ähnlich wie BERT für Text, aber für Bilder. Maskiert 75% der Patches und lernt, sie zu rekonstruieren.

ANALOGIE

Ein Vision Transformer betrachtet ein Bild wie ein Leser einen Text: Er teilt das Bild in kleine Kacheln (Patches) auf und analysiert, wie diese Kacheln zueinander in Beziehung stehen – genau wie Wörter in einem Satz.

WICHTIGSTE PUNKTE

Teilt Bilder in feste Patches auf und behandelt sie wie Text-Tokens

Nutzt Self-Attention statt Convolutions für globale Kontexterfassung

Basis für multimodale Modelle wie CLIP, GPT-5 und Gemini 3

ANWENDUNGSFÄLLE

Bildklassifikation

State-of-the-Art Genauigkeit auf ImageNet und anderen Benchmarks

Multimodale Modelle

ViT als Vision-Encoder in GPT-5, Claude 4.6 und Gemini 3

Medizinische Bildanalyse

Analyse von Röntgenbildern, MRTs und histologischen Schnitten

Autonomes Fahren

Szenenverständnis und Objekterkennung aus Kamerabildern

HÄUFIGE FRAGEN

Ist ViT besser als CNN?

Kommt auf den Datensatz an. ViT braucht mehr Daten zum Trainieren, übertrifft CNNs aber bei großen Datensätzen deutlich. Mit Techniken wie DeiT (Data-efficient Image Transformers) funktioniert ViT auch mit weniger Daten gut.

Wie groß sind ViT-Modelle?

ViT-Base hat 86M Parameter, ViT-Large 307M, ViT-Huge 632M. Für Produktionsanwendungen gibt es kleinere Varianten wie ViT-Small (22M) und ViT-Tiny (5M).

Warum nutzen multimodale Modelle ViT?

ViT erzeugt Bild-Embeddings im selben Vektorraum wie Text-Embeddings. Das macht es einfach, Bilder und Text gemeinsam zu verarbeiten – der Transformer 'sieht' Bild-Patches wie zusätzliche Tokens.

TOOLS & RESSOURCEN

Hugging Face Transformers

ViT-Implementierungen und vortrainierte Modelle

timm

PyTorch Image Models – größte Sammlung von Vision-Modellen

VERWANDTE BEGRIFFE

Architektur Grundlagen

Attention Mechanism

Der Kernmechanismus moderner KI-Modelle – ermöglicht es einem Modell, sich auf die relevantesten Teile der Eingabe zu konzentrieren, statt alles gleich zu gewichten.

Architektur LLM

Transformer

Eine revolutionäre neuronale Netzwerk-Architektur, die auf dem Attention-Mechanismus basiert und die Grundlage für moderne Sprachmodelle wie GPT und BERT bildet.

Architektur Grundlagen

CNN (Convolutional Neural Network)

Eine neuronale Netzwerk-Architektur, die speziell für die Verarbeitung von Bildern und räumlichen Daten entwickelt wurde und lokale Muster durch Filter erkennt.

Architektur Bild-KI

CLIP

Ein multimodales Modell von OpenAI, das Text und Bilder in einen gemeinsamen Vektorraum einbettet – die Grundlage für Bild-Suche, DALL-E und viele Vision-Language-Modelle.

LLM Grundlagen

Multimodalität

Die Fähigkeit eines KI-Modells, verschiedene Datentypen wie Text, Bilder, Audio und Video gleichzeitig zu verstehen und zu verarbeiten.