Inferenz
Die Anwendung eines trainierten KI-Modells auf neue Daten, um Vorhersagen oder Ausgaben zu generieren – der produktive Einsatz nach dem Training.
Eine Optimierungstechnik, die die Präzision der Gewichte eines KI-Modells reduziert (z.B. von 32-Bit auf 4-Bit), um Speicherbedarf und Rechenaufwand drastisch zu senken.
Quantisierung ist eine Modell-Komprimierungstechnik, die die numerische Präzision der Modellgewichte reduziert – von 32-Bit-Fließkommazahlen (FP32) auf 16-Bit (FP16), 8-Bit (INT8) oder sogar 4-Bit (INT4). Das klingt nach einem Qualitätsverlust, ist aber in der Praxis erstaunlich verlustfrei: Modelle behalten 95-99% ihrer Qualität, werden aber 2-8× kleiner und schneller. Quantisierung ist der Hauptgrund, warum 70-Milliarden-Parameter-Modelle heute auf einem einzigen Consumer-GPU laufen können.
Quantisierung macht KI-Modelle kleiner und schneller, indem die Genauigkeit der gespeicherten Zahlen reduziert wird. Jedes Gewicht in einem neuronalen Netz ist eine Zahl – standardmäßig mit 32-Bit-Gleitkomma-Präzision (FP32). Quantisierung reduziert diese Präzision auf 16, 8 oder sogar 4 Bit.
Das klingt nach einem Kompromiss – und das ist es auch. Aber der Qualitätsverlust ist bei modernen Methoden überraschend gering, während die Einsparungen enorm sind: Ein 70-Milliarden-Parameter-Modell benötigt in FP16 rund 140 GB VRAM. Mit 4-Bit-Quantisierung schrumpft das auf 35 GB – und passt damit auf eine einzelne High-End-GPU. Das hat lokale LLMs erst möglich gemacht.
Bit-Präzision im Vergleich:
| Präzision | Bytes pro Gewicht | 70B-Modell | Qualität |
|---|---|---|---|
| FP32 | 4 Bytes | 280 GB | Referenz |
| FP16 | 2 Bytes | 140 GB | ~Identisch |
| INT8 | 1 Byte | 70 GB | Minimal schlechter |
| INT4 | 0.5 Bytes | 35 GB | Leicht schlechter |
| INT2 | 0.25 Bytes | 17.5 GB | Spürbar schlechter |
Post-Training Quantization (PTQ): Quantisierung nach dem Training, ohne Retraining.
Quantization-Aware Training (QAT): Quantisierung wird ins Training integriert.
# Quantisiertes Modell herunterladen und starten
ollama pull llama3:8b-instruct-q4_K_M
ollama run llama3:8b-instruct-q4_K_M
# Oder via API
curl http://localhost:11434/api/generate -d '{
"model": "llama3:8b-instruct-q4_K_M",
"prompt": "Erkläre Quantisierung"
}'
| Modell | Quantisierung | VRAM | Beispiel-GPU |
|---|---|---|---|
| 7B | Q4_K_M | ~4 GB | RTX 3060 |
| 13B | Q4_K_M | ~8 GB | RTX 3070 |
| 70B | Q4_K_M | ~35 GB | RTX 4090 / A100 |
| 70B | Q8_0 | ~70 GB | 2x RTX 4090 |
Quantisierung ist wie das Runden von Zahlen: Statt 3,14159265 speicherst du 3,14 – du verlierst etwas Genauigkeit, brauchst aber viel weniger Platz und rechnest schneller.
Reduziert die Bit-Präzision von Modellgewichten (FP32 → INT8/INT4)
Senkt Speicherbedarf um 2-8x und beschleunigt Inferenz
Ermöglicht das Ausführen großer Modelle auf Consumer-Hardware
Lokale LLMs
70B-Parameter-Modelle auf Consumer-GPUs durch 4-Bit-Quantisierung
Mobile KI
Modelle auf Smartphones und Edge-Geräten ausführen
Kostenreduktion
Weniger GPU-Speicher = günstigere Inferenz in der Cloud
Schnellere Inferenz
Niedrigere Präzision = schnellere Berechnung auf GPUs
Bei 8-Bit: fast keine Qualitätseinbuße. Bei 4-Bit: minimaler Verlust (1-3% auf Benchmarks). Bei 2-Bit: spürbarer Qualitätsverlust. Die Qualität hängt auch von der Quantisierungsmethode ab (GPTQ, AWQ, GGUF).
FP32 → FP16: 2x weniger. FP16 → INT8: 2x weniger. INT8 → INT4: 2x weniger. Ein 70B-Modell: FP16 = 140GB, INT4 = 35GB. Damit passt es auf eine einzelne GPU mit 48GB VRAM.
Für lokale Nutzung: GGUF Q4_K_M (guter Kompromiss). Für GPU-Inferenz: AWQ oder GPTQ INT4. Für Produktion: INT8 oder FP8 für minimalen Qualitätsverlust.