<EbeneX/>
Grundlagen DevOps · Updated 17. Februar 2026

Distillation (Knowledge Distillation)

Definition

Eine Technik, bei der ein kleines 'Schüler'-Modell trainiert wird, das Verhalten eines großen 'Lehrer'-Modells nachzuahmen – für effizientere Inferenz bei ähnlicher Qualität.

Experte 2 Min. Lesezeit EN: Knowledge Distillation

Einfach erklärt

Knowledge Distillation ist eine Modell-Komprimierungstechnik, bei der ein kleines “Schüler”-Modell lernt, das Verhalten eines großen “Lehrer”-Modells zu imitieren. Statt aus den Originaldaten zu lernen, trainiert der Schüler auf den “weichen” Ausgaben des Lehrers – den Wahrscheinlichkeitsverteilungen über alle Klassen, nicht nur dem finalen Label. Diese weichen Labels enthalten mehr Information als harte Labels und ermöglichen es dem Schüler, das Wissen des Lehrers effizienter zu übernehmen.

Knowledge Distillation überträgt das Wissen eines großen Modells in ein kleines. Das kleine Modell lernt nicht aus den Originaldaten, sondern aus den Vorhersagen des großen Modells.

Der Prozess:

Großes Modell (Lehrer)          Kleines Modell (Schüler)
GPT-5 (Frontier)          →    GPT-5-mini (kompakt)
Langsam, teuer, genau           Schnell, günstig, fast so gut

Warum Soft Labels?

Statt nur “Katze” (Hard Label) lernt der Schüler:

  • Katze: 85%, Hund: 10%, Fuchs: 5% (Soft Label)

Die Soft Labels enthalten mehr Information – der Schüler lernt auch, dass Katzen und Hunde ähnlicher sind als Katzen und Autos.

Technischer Deep Dive

Distillation Loss

L = α · L_hard(y, y_student) + (1-α) · L_soft(y_teacher, y_student)
  • L_hard: Standard Cross-Entropy mit echten Labels
  • L_soft: KL-Divergenz zwischen Lehrer- und Schüler-Verteilungen
  • α: Gewichtung zwischen Hard und Soft Loss
  • Temperature T: Weichere Verteilungen für mehr Information

Distillation-Varianten

  • Response Distillation: Schüler lernt die Ausgaben des Lehrers
  • Feature Distillation: Schüler lernt die internen Repräsentationen
  • Self-Distillation: Modell destilliert sich selbst (tiefe → flache Schichten)
  • Online Distillation: Lehrer und Schüler trainieren gleichzeitig

Bekannte destillierte Modelle

LehrerSchülerKompressionQualitätserhalt
BERTDistilBERT40% kleiner97%
GPT-5GPT-5-mini~200x kleiner~80-90%
Llama 4 MaverickLlama 4 ScoutMoE-Kompression~75-85%

Distillation ist wie ein erfahrener Professor, der sein Wissen an einen Studenten weitergibt: Der Student lernt nicht alles von Grund auf, sondern übernimmt die destillierten Erkenntnisse des Professors – schneller und kompakter.

Großes Lehrer-Modell trainiert ein kleines Schüler-Modell

Schüler lernt die 'Soft Labels' (Wahrscheinlichkeitsverteilungen) des Lehrers

Ergebnis: Kleineres, schnelleres Modell mit 80-95% der Lehrer-Qualität

Modellkompression

GPT-5-Qualität in einem Modell mit 1/10 der Parameter annähern

Edge Deployment

Große Modelle für Smartphones und IoT-Geräte komprimieren

Kostenreduktion

Günstigere Inferenz durch kleinere, schnellere Modelle

Spezialisierung

Ein kleines Modell für eine spezifische Aufgabe aus einem großen Generalisten destillieren

Was ist der Unterschied zwischen Distillation und Quantisierung?

Quantisierung reduziert die Bit-Präzision der Gewichte (gleiches Modell, weniger Bits). Distillation trainiert ein komplett neues, kleineres Modell (weniger Parameter). Beide können kombiniert werden für maximale Kompression.

Kann ich GPT-4 destillieren?

Indirekt ja: Du kannst ein kleineres Modell auf GPT-5-Ausgaben fine-tunen. Das ist eine Form der Distillation. OpenAI bietet dies über ihre Fine-Tuning-API an. Beachte die Nutzungsbedingungen bezüglich der Verwendung von Modell-Ausgaben.

Wie viel Qualität geht bei Distillation verloren?

Typisch 5-20% auf Benchmarks, abhängig vom Größenverhältnis. DistilBERT behält 97% der BERT-Qualität bei 40% weniger Parametern. Bei stärkerer Kompression (10x kleiner) sind größere Einbußen zu erwarten.

Dein persönliches Share-Bild für Instagram – 1080×1080px, bereit zum Posten.