Quantisierung: Optimierung von KI-Modellen

ERKLÄRUNG

Einfach erklärt

Quantisierung ist eine Modell-Komprimierungstechnik, die die numerische Präzision der Modellgewichte reduziert – von 32-Bit-Fließkommazahlen (FP32) auf 16-Bit (FP16), 8-Bit (INT8) oder sogar 4-Bit (INT4). Das klingt nach einem Qualitätsverlust, ist aber in der Praxis erstaunlich verlustfrei: Modelle behalten 95-99% ihrer Qualität, werden aber 2-8× kleiner und schneller. Quantisierung ist der Hauptgrund, warum 70-Milliarden-Parameter-Modelle heute auf einem einzigen Consumer-GPU laufen können.

Quantisierung macht KI-Modelle kleiner und schneller, indem die Genauigkeit der gespeicherten Zahlen reduziert wird. Jedes Gewicht in einem neuronalen Netz ist eine Zahl – standardmäßig mit 32-Bit-Gleitkomma-Präzision (FP32). Quantisierung reduziert diese Präzision auf 16, 8 oder sogar 4 Bit.

Das klingt nach einem Kompromiss – und das ist es auch. Aber der Qualitätsverlust ist bei modernen Methoden überraschend gering, während die Einsparungen enorm sind: Ein 70-Milliarden-Parameter-Modell benötigt in FP16 rund 140 GB VRAM. Mit 4-Bit-Quantisierung schrumpft das auf 35 GB – und passt damit auf eine einzelne High-End-GPU. Das hat lokale LLMs erst möglich gemacht.

Bit-Präzision im Vergleich:

Präzision	Bytes pro Gewicht	70B-Modell	Qualität
FP32	4 Bytes	280 GB	Referenz
FP16	2 Bytes	140 GB	~Identisch
INT8	1 Byte	70 GB	Minimal schlechter
INT4	0.5 Bytes	35 GB	Leicht schlechter
INT2	0.25 Bytes	17.5 GB	Spürbar schlechter

Technischer Deep Dive

Quantisierungsmethoden

Post-Training Quantization (PTQ): Quantisierung nach dem Training, ohne Retraining.

GPTQ: Gewichte werden schichtweise optimal quantisiert
AWQ: Activation-Aware Quantization, schützt wichtige Gewichte
GGUF: Format für CPU/GPU-Inferenz mit llama.cpp

Quantization-Aware Training (QAT): Quantisierung wird ins Training integriert.

Bessere Qualität als PTQ
Erfordert Retraining (teuer)
Standard bei Modellen für Edge-Deployment

GGUF-Varianten

Q2_K: 2-Bit, sehr klein, spürbare Qualitätseinbuße
Q4_K_M: 4-Bit, guter Kompromiss aus Größe und Qualität
Q5_K_M: 5-Bit, kaum Qualitätsverlust
Q8_0: 8-Bit, fast identisch mit Original

Lokale LLMs mit Ollama

# Quantisiertes Modell herunterladen und starten
ollama pull llama3:8b-instruct-q4_K_M
ollama run llama3:8b-instruct-q4_K_M

# Oder via API
curl http://localhost:11434/api/generate -d '{
  "model": "llama3:8b-instruct-q4_K_M",
  "prompt": "Erkläre Quantisierung"
}'

Hardware-Anforderungen

Modell	Quantisierung	VRAM	Beispiel-GPU
7B	Q4_K_M	~4 GB	RTX 3060
13B	Q4_K_M	~8 GB	RTX 3070
70B	Q4_K_M	~35 GB	RTX 4090 / A100
70B	Q8_0	~70 GB	2x RTX 4090

ANALOGIE

Quantisierung ist wie das Runden von Zahlen: Statt 3,14159265 speicherst du 3,14 – du verlierst etwas Genauigkeit, brauchst aber viel weniger Platz und rechnest schneller.

WICHTIGSTE PUNKTE

Reduziert die Bit-Präzision von Modellgewichten (FP32 → INT8/INT4)

Senkt Speicherbedarf um 2-8x und beschleunigt Inferenz

Ermöglicht das Ausführen großer Modelle auf Consumer-Hardware

ANWENDUNGSFÄLLE

Lokale LLMs

70B-Parameter-Modelle auf Consumer-GPUs durch 4-Bit-Quantisierung

Mobile KI

Modelle auf Smartphones und Edge-Geräten ausführen

Kostenreduktion

Weniger GPU-Speicher = günstigere Inferenz in der Cloud

Schnellere Inferenz

Niedrigere Präzision = schnellere Berechnung auf GPUs

HÄUFIGE FRAGEN

Wie viel Qualität verliert man durch Quantisierung?

Bei 8-Bit: fast keine Qualitätseinbuße. Bei 4-Bit: minimaler Verlust (1-3% auf Benchmarks). Bei 2-Bit: spürbarer Qualitätsverlust. Die Qualität hängt auch von der Quantisierungsmethode ab (GPTQ, AWQ, GGUF).

Wie viel Speicher spart Quantisierung?

FP32 → FP16: 2x weniger. FP16 → INT8: 2x weniger. INT8 → INT4: 2x weniger. Ein 70B-Modell: FP16 = 140GB, INT4 = 35GB. Damit passt es auf eine einzelne GPU mit 48GB VRAM.

Welche Quantisierung sollte ich verwenden?

Für lokale Nutzung: GGUF Q4_K_M (guter Kompromiss). Für GPU-Inferenz: AWQ oder GPTQ INT4. Für Produktion: INT8 oder FP8 für minimalen Qualitätsverlust.

TOOLS & RESSOURCEN

llama.cpp

C++-Inferenz-Engine mit GGUF-Quantisierung für lokale LLMs

GPTQ

Post-Training-Quantisierung für LLMs mit minimaler Qualitätseinbuße

bitsandbytes

4-Bit und 8-Bit Quantisierung für PyTorch-Modelle

Ollama

Einfaches lokales Ausführen quantisierter LLMs

VERWANDTE BEGRIFFE

Grundlagen

Inferenz

Die Anwendung eines trainierten KI-Modells auf neue Daten, um Vorhersagen oder Ausgaben zu generieren – der produktive Einsatz nach dem Training.

Grundlagen

Modell

Eine mathematische Repräsentation, die aus Daten gelernte Muster enthält und Vorhersagen oder Entscheidungen für neue Eingaben treffen kann.

Grundlagen

Parameter

Die internen Zahlenwerte eines KI-Modells, die während des Trainings gelernt werden und das 'Wissen' des Modells repräsentieren.

Web DevOps

Edge Computing

Die Verarbeitung von Daten nahe am Entstehungsort (am 'Rand' des Netzwerks) statt in einem zentralen Rechenzentrum – für niedrigere Latenz und besseren Datenschutz.

Grundlagen DevOps

Distillation (Knowledge Distillation)

Eine Technik, bei der ein kleines 'Schüler'-Modell trainiert wird, das Verhalten eines großen 'Lehrer'-Modells nachzuahmen – für effizientere Inferenz bei ähnlicher Qualität.