Inferenz
Die Anwendung eines trainierten KI-Modells auf neue Daten, um Vorhersagen oder Ausgaben zu generieren – der produktive Einsatz nach dem Training.
Spezialisierte Hardware für KI-Berechnungen – GPUs (Graphics Processing Units) und TPUs (Tensor Processing Units) ermöglichen das Training und die Ausführung moderner KI-Modelle.
GPUs (Graphics Processing Units) und TPUs (Tensor Processing Units) sind die Spezial-Hardware, die das Deep-Learning-Zeitalter erst möglich gemacht hat. Während CPUs für sequenzielle Berechnungen optimiert sind, können GPUs und TPUs tausende Berechnungen parallel ausführen – genau das, was Matrix-Multiplikationen in neuronalen Netzen erfordern. Ohne diese Hardware wären moderne LLMs und Diffusionsmodelle nicht trainierbar.
KI-Modelle bestehen aus Milliarden von Rechenoperationen – hauptsächlich Matrix-Multiplikationen. CPUs rechnen schnell, aber nacheinander. GPUs rechnen tausende Operationen gleichzeitig.
Der Unterschied:
CPU: 1 Kern × sehr schnell = gut für komplexe Einzelaufgaben
GPU: 10.000 Kerne × schnell = perfekt für parallele Berechnungen
TPU: Spezialisiert auf Tensor-Ops = optimiert für ML
Brauche ich eine GPU?
| Aufgabe | GPU nötig? |
|---|---|
| ChatGPT/Claude nutzen (API) | Nein |
| Kleine Modelle lokal | Nein (CPU reicht) |
| LLMs lokal (7B+) | Ja, empfohlen |
| Fine-Tuning | Ja, fast immer |
| Training | Ja, unbedingt |
Für den Einstieg: Eine NVIDIA RTX 4060 (8GB) reicht für Experimente. Für ernsthaftes Fine-Tuning: RTX 4090 (24GB) oder Cloud-GPUs.
| GPU | VRAM | FP16 TFLOPS | Einsatz |
|---|---|---|---|
| RTX 4090 | 24GB | 83 | Lokales Fine-Tuning, Inference |
| A100 | 80GB | 312 | Cloud Training & Inference |
| H100 | 80GB | 990 | LLM Training, High-End Inference |
| B200 | 192GB | 2250 | Next-Gen LLM Training |
Neuronale Netze = Matrix-Multiplikationen. GPUs wurden für 3D-Grafik entwickelt (auch Matrix-Ops). Die Parallelität passt perfekt.
Eine CPU ist wie ein Mathematik-Professor: Sehr schlau, löst komplexe Probleme einzeln. Eine GPU ist wie 1000 Grundschüler: Jeder kann nur einfache Aufgaben, aber zusammen lösen sie Millionen Aufgaben gleichzeitig.
GPU: Tausende parallele Kerne – ideal für Matrix-Operationen in neuronalen Netzen
TPU: Von Google speziell für Tensor-Berechnungen entwickelt – noch schneller für ML
NVIDIA dominiert den GPU-Markt für KI (A100, H100, B200)
LLM-Training
GPT-5 Training benötigte Zehntausende Blackwell B200 GPUs über mehrere Monate
Inference
GPUs für schnelle Token-Generierung in Produktions-APIs
Bildgenerierung
Stable Diffusion, DALL-E – GPU-intensive Diffusionsmodelle
Lokale KI
Consumer GPUs (RTX 4090) für lokale LLM-Inference und Fine-Tuning
Für Training: Ja, fast immer. Für Inference: Kommt auf die Modellgröße an. Kleine Modelle laufen auf CPUs, große LLMs brauchen GPUs. llama.cpp ermöglicht CPU-Inference für mittelgroße Modelle.
NVIDIA RTX 4060 (8GB) für Experimente, RTX 4090 (24GB) für ernsthaftes Fine-Tuning. Im Cloud-Bereich: A100 (40/80GB) oder H100 für Produktions-Workloads.
GPUs sind vielseitig und eignen sich gut für eine breite Palette von KI-Anwendungen, während TPUs speziell für TensorFlow-Modelle optimiert sind. Wenn Ihre Anwendung stark auf TensorFlow basiert, kann eine TPU die Leistung erheblich steigern.
TPUs können in bestimmten Anwendungen bis zu 15-30 Mal schneller sein als GPUs, insbesondere bei großen TensorFlow-Modellen. Die tatsächliche Geschwindigkeit hängt jedoch von der spezifischen Anwendung und der Implementierung ab.