<EbeneX/>
DevOps Grundlagen · Updated 3. März 2026

Quantisierung

Definition

Eine Optimierungstechnik, die die Präzision der Gewichte eines KI-Modells reduziert (z.B. von 32-Bit auf 4-Bit), um Speicherbedarf und Rechenaufwand drastisch zu senken.

Experte 3 Min. Lesezeit EN: Quantization

Einfach erklärt

Quantisierung ist eine Modell-Komprimierungstechnik, die die numerische Präzision der Modellgewichte reduziert – von 32-Bit-Fließkommazahlen (FP32) auf 16-Bit (FP16), 8-Bit (INT8) oder sogar 4-Bit (INT4). Das klingt nach einem Qualitätsverlust, ist aber in der Praxis erstaunlich verlustfrei: Modelle behalten 95-99% ihrer Qualität, werden aber 2-8× kleiner und schneller. Quantisierung ist der Hauptgrund, warum 70-Milliarden-Parameter-Modelle heute auf einem einzigen Consumer-GPU laufen können.

Quantisierung macht KI-Modelle kleiner und schneller, indem die Genauigkeit der gespeicherten Zahlen reduziert wird. Jedes Gewicht in einem neuronalen Netz ist eine Zahl – standardmäßig mit 32-Bit-Gleitkomma-Präzision (FP32). Quantisierung reduziert diese Präzision auf 16, 8 oder sogar 4 Bit.

Das klingt nach einem Kompromiss – und das ist es auch. Aber der Qualitätsverlust ist bei modernen Methoden überraschend gering, während die Einsparungen enorm sind: Ein 70-Milliarden-Parameter-Modell benötigt in FP16 rund 140 GB VRAM. Mit 4-Bit-Quantisierung schrumpft das auf 35 GB – und passt damit auf eine einzelne High-End-GPU. Das hat lokale LLMs erst möglich gemacht.

Bit-Präzision im Vergleich:

PräzisionBytes pro Gewicht70B-ModellQualität
FP324 Bytes280 GBReferenz
FP162 Bytes140 GB~Identisch
INT81 Byte70 GBMinimal schlechter
INT40.5 Bytes35 GBLeicht schlechter
INT20.25 Bytes17.5 GBSpürbar schlechter

Technischer Deep Dive

Quantisierungsmethoden

Post-Training Quantization (PTQ): Quantisierung nach dem Training, ohne Retraining.

  • GPTQ: Gewichte werden schichtweise optimal quantisiert
  • AWQ: Activation-Aware Quantization, schützt wichtige Gewichte
  • GGUF: Format für CPU/GPU-Inferenz mit llama.cpp

Quantization-Aware Training (QAT): Quantisierung wird ins Training integriert.

  • Bessere Qualität als PTQ
  • Erfordert Retraining (teuer)
  • Standard bei Modellen für Edge-Deployment

GGUF-Varianten

  • Q2_K: 2-Bit, sehr klein, spürbare Qualitätseinbuße
  • Q4_K_M: 4-Bit, guter Kompromiss aus Größe und Qualität
  • Q5_K_M: 5-Bit, kaum Qualitätsverlust
  • Q8_0: 8-Bit, fast identisch mit Original

Lokale LLMs mit Ollama

# Quantisiertes Modell herunterladen und starten
ollama pull llama3:8b-instruct-q4_K_M
ollama run llama3:8b-instruct-q4_K_M

# Oder via API
curl http://localhost:11434/api/generate -d '{
  "model": "llama3:8b-instruct-q4_K_M",
  "prompt": "Erkläre Quantisierung"
}'

Hardware-Anforderungen

ModellQuantisierungVRAMBeispiel-GPU
7BQ4_K_M~4 GBRTX 3060
13BQ4_K_M~8 GBRTX 3070
70BQ4_K_M~35 GBRTX 4090 / A100
70BQ8_0~70 GB2x RTX 4090

Quantisierung ist wie das Runden von Zahlen: Statt 3,14159265 speicherst du 3,14 – du verlierst etwas Genauigkeit, brauchst aber viel weniger Platz und rechnest schneller.

Reduziert die Bit-Präzision von Modellgewichten (FP32 → INT8/INT4)

Senkt Speicherbedarf um 2-8x und beschleunigt Inferenz

Ermöglicht das Ausführen großer Modelle auf Consumer-Hardware

Lokale LLMs

70B-Parameter-Modelle auf Consumer-GPUs durch 4-Bit-Quantisierung

Mobile KI

Modelle auf Smartphones und Edge-Geräten ausführen

Kostenreduktion

Weniger GPU-Speicher = günstigere Inferenz in der Cloud

Schnellere Inferenz

Niedrigere Präzision = schnellere Berechnung auf GPUs

Wie viel Qualität verliert man durch Quantisierung?

Bei 8-Bit: fast keine Qualitätseinbuße. Bei 4-Bit: minimaler Verlust (1-3% auf Benchmarks). Bei 2-Bit: spürbarer Qualitätsverlust. Die Qualität hängt auch von der Quantisierungsmethode ab (GPTQ, AWQ, GGUF).

Wie viel Speicher spart Quantisierung?

FP32 → FP16: 2x weniger. FP16 → INT8: 2x weniger. INT8 → INT4: 2x weniger. Ein 70B-Modell: FP16 = 140GB, INT4 = 35GB. Damit passt es auf eine einzelne GPU mit 48GB VRAM.

Welche Quantisierung sollte ich verwenden?

Für lokale Nutzung: GGUF Q4_K_M (guter Kompromiss). Für GPU-Inferenz: AWQ oder GPTQ INT4. Für Produktion: INT8 oder FP8 für minimalen Qualitätsverlust.

Dein persönliches Share-Bild für Instagram – 1080×1080px, bereit zum Posten.