Quantisierung
Eine Optimierungstechnik, die die Präzision der Gewichte eines KI-Modells reduziert (z.B. von 32-Bit auf 4-Bit), um Speicherbedarf und Rechenaufwand drastisch zu senken.
Eine Technik, bei der ein kleines 'Schüler'-Modell trainiert wird, das Verhalten eines großen 'Lehrer'-Modells nachzuahmen – für effizientere Inferenz bei ähnlicher Qualität.
Knowledge Distillation ist eine Modell-Komprimierungstechnik, bei der ein kleines “Schüler”-Modell lernt, das Verhalten eines großen “Lehrer”-Modells zu imitieren. Statt aus den Originaldaten zu lernen, trainiert der Schüler auf den “weichen” Ausgaben des Lehrers – den Wahrscheinlichkeitsverteilungen über alle Klassen, nicht nur dem finalen Label. Diese weichen Labels enthalten mehr Information als harte Labels und ermöglichen es dem Schüler, das Wissen des Lehrers effizienter zu übernehmen.
Knowledge Distillation überträgt das Wissen eines großen Modells in ein kleines. Das kleine Modell lernt nicht aus den Originaldaten, sondern aus den Vorhersagen des großen Modells.
Der Prozess:
Großes Modell (Lehrer) Kleines Modell (Schüler)
GPT-5 (Frontier) → GPT-5-mini (kompakt)
Langsam, teuer, genau Schnell, günstig, fast so gut
Warum Soft Labels?
Statt nur “Katze” (Hard Label) lernt der Schüler:
Die Soft Labels enthalten mehr Information – der Schüler lernt auch, dass Katzen und Hunde ähnlicher sind als Katzen und Autos.
L = α · L_hard(y, y_student) + (1-α) · L_soft(y_teacher, y_student)
| Lehrer | Schüler | Kompression | Qualitätserhalt |
|---|---|---|---|
| BERT | DistilBERT | 40% kleiner | 97% |
| GPT-5 | GPT-5-mini | ~200x kleiner | ~80-90% |
| Llama 4 Maverick | Llama 4 Scout | MoE-Kompression | ~75-85% |
Distillation ist wie ein erfahrener Professor, der sein Wissen an einen Studenten weitergibt: Der Student lernt nicht alles von Grund auf, sondern übernimmt die destillierten Erkenntnisse des Professors – schneller und kompakter.
Großes Lehrer-Modell trainiert ein kleines Schüler-Modell
Schüler lernt die 'Soft Labels' (Wahrscheinlichkeitsverteilungen) des Lehrers
Ergebnis: Kleineres, schnelleres Modell mit 80-95% der Lehrer-Qualität
Modellkompression
GPT-5-Qualität in einem Modell mit 1/10 der Parameter annähern
Edge Deployment
Große Modelle für Smartphones und IoT-Geräte komprimieren
Kostenreduktion
Günstigere Inferenz durch kleinere, schnellere Modelle
Spezialisierung
Ein kleines Modell für eine spezifische Aufgabe aus einem großen Generalisten destillieren
Quantisierung reduziert die Bit-Präzision der Gewichte (gleiches Modell, weniger Bits). Distillation trainiert ein komplett neues, kleineres Modell (weniger Parameter). Beide können kombiniert werden für maximale Kompression.
Indirekt ja: Du kannst ein kleineres Modell auf GPT-5-Ausgaben fine-tunen. Das ist eine Form der Distillation. OpenAI bietet dies über ihre Fine-Tuning-API an. Beachte die Nutzungsbedingungen bezüglich der Verwendung von Modell-Ausgaben.
Typisch 5-20% auf Benchmarks, abhängig vom Größenverhältnis. DistilBERT behält 97% der BERT-Qualität bei 40% weniger Parametern. Bei stärkerer Kompression (10x kleiner) sind größere Einbußen zu erwarten.