<EbeneX/>
Grundlagen Praxis · Updated 3. März 2026

GPU / TPU

Definition

Spezialisierte Hardware für KI-Berechnungen – GPUs (Graphics Processing Units) und TPUs (Tensor Processing Units) ermöglichen das Training und die Ausführung moderner KI-Modelle.

Einsteiger 2 Min. Lesezeit EN: GPU / TPU

Einfach erklärt

GPUs (Graphics Processing Units) und TPUs (Tensor Processing Units) sind die Spezial-Hardware, die das Deep-Learning-Zeitalter erst möglich gemacht hat. Während CPUs für sequenzielle Berechnungen optimiert sind, können GPUs und TPUs tausende Berechnungen parallel ausführen – genau das, was Matrix-Multiplikationen in neuronalen Netzen erfordern. Ohne diese Hardware wären moderne LLMs und Diffusionsmodelle nicht trainierbar.

KI-Modelle bestehen aus Milliarden von Rechenoperationen – hauptsächlich Matrix-Multiplikationen. CPUs rechnen schnell, aber nacheinander. GPUs rechnen tausende Operationen gleichzeitig.

Der Unterschied:

CPU:  1 Kern × sehr schnell    = gut für komplexe Einzelaufgaben
GPU:  10.000 Kerne × schnell   = perfekt für parallele Berechnungen
TPU:  Spezialisiert auf Tensor-Ops = optimiert für ML

Brauche ich eine GPU?

AufgabeGPU nötig?
ChatGPT/Claude nutzen (API)Nein
Kleine Modelle lokalNein (CPU reicht)
LLMs lokal (7B+)Ja, empfohlen
Fine-TuningJa, fast immer
TrainingJa, unbedingt

Für den Einstieg: Eine NVIDIA RTX 4060 (8GB) reicht für Experimente. Für ernsthaftes Fine-Tuning: RTX 4090 (24GB) oder Cloud-GPUs.

Technischer Deep Dive

GPU-Generationen für KI (NVIDIA)

GPUVRAMFP16 TFLOPSEinsatz
RTX 409024GB83Lokales Fine-Tuning, Inference
A10080GB312Cloud Training & Inference
H10080GB990LLM Training, High-End Inference
B200192GB2250Next-Gen LLM Training

Warum GPUs für KI?

Neuronale Netze = Matrix-Multiplikationen. GPUs wurden für 3D-Grafik entwickelt (auch Matrix-Ops). Die Parallelität passt perfekt.

Alternativen

  • TPU (Google): Speziell für TensorFlow/JAX optimiert
  • Apple Silicon: Neural Engine für On-Device ML
  • Groq LPU: Spezialisiert auf LLM-Inference
  • Cerebras: Wafer-Scale Chips für Training

Eine CPU ist wie ein Mathematik-Professor: Sehr schlau, löst komplexe Probleme einzeln. Eine GPU ist wie 1000 Grundschüler: Jeder kann nur einfache Aufgaben, aber zusammen lösen sie Millionen Aufgaben gleichzeitig.

GPU: Tausende parallele Kerne – ideal für Matrix-Operationen in neuronalen Netzen

TPU: Von Google speziell für Tensor-Berechnungen entwickelt – noch schneller für ML

NVIDIA dominiert den GPU-Markt für KI (A100, H100, B200)

LLM-Training

GPT-5 Training benötigte Zehntausende Blackwell B200 GPUs über mehrere Monate

Inference

GPUs für schnelle Token-Generierung in Produktions-APIs

Bildgenerierung

Stable Diffusion, DALL-E – GPU-intensive Diffusionsmodelle

Lokale KI

Consumer GPUs (RTX 4090) für lokale LLM-Inference und Fine-Tuning

Braucht man eine GPU für KI?

Für Training: Ja, fast immer. Für Inference: Kommt auf die Modellgröße an. Kleine Modelle laufen auf CPUs, große LLMs brauchen GPUs. llama.cpp ermöglicht CPU-Inference für mittelgroße Modelle.

Welche GPU für den Einstieg?

NVIDIA RTX 4060 (8GB) für Experimente, RTX 4090 (24GB) für ernsthaftes Fine-Tuning. Im Cloud-Bereich: A100 (40/80GB) oder H100 für Produktions-Workloads.

Wann sollte ich eine GPU anstelle einer TPU verwenden?

GPUs sind vielseitig und eignen sich gut für eine breite Palette von KI-Anwendungen, während TPUs speziell für TensorFlow-Modelle optimiert sind. Wenn Ihre Anwendung stark auf TensorFlow basiert, kann eine TPU die Leistung erheblich steigern.

Wie viel schneller sind TPUs im Vergleich zu GPUs beim Training von Modellen?

TPUs können in bestimmten Anwendungen bis zu 15-30 Mal schneller sein als GPUs, insbesondere bei großen TensorFlow-Modellen. Die tatsächliche Geschwindigkeit hängt jedoch von der spezifischen Anwendung und der Implementierung ab.

Dein persönliches Share-Bild für Instagram – 1080×1080px, bereit zum Posten.