Distillation: Wissen in kompakte Modelle übertragen

ERKLÄRUNG

Einfach erklärt

Knowledge Distillation ist eine Modell-Komprimierungstechnik, bei der ein kleines “Schüler”-Modell lernt, das Verhalten eines großen “Lehrer”-Modells zu imitieren. Statt aus den Originaldaten zu lernen, trainiert der Schüler auf den “weichen” Ausgaben des Lehrers – den Wahrscheinlichkeitsverteilungen über alle Klassen, nicht nur dem finalen Label. Diese weichen Labels enthalten mehr Information als harte Labels und ermöglichen es dem Schüler, das Wissen des Lehrers effizienter zu übernehmen.

Knowledge Distillation überträgt das Wissen eines großen Modells in ein kleines. Das kleine Modell lernt nicht aus den Originaldaten, sondern aus den Vorhersagen des großen Modells.

Der Prozess:

Großes Modell (Lehrer)          Kleines Modell (Schüler)
GPT-5 (Frontier)          →    GPT-5-mini (kompakt)
Langsam, teuer, genau           Schnell, günstig, fast so gut

Warum Soft Labels?

Statt nur “Katze” (Hard Label) lernt der Schüler:

Katze: 85%, Hund: 10%, Fuchs: 5% (Soft Label)

Die Soft Labels enthalten mehr Information – der Schüler lernt auch, dass Katzen und Hunde ähnlicher sind als Katzen und Autos.

Technischer Deep Dive

Distillation Loss

L = α · L_hard(y, y_student) + (1-α) · L_soft(y_teacher, y_student)

L_hard: Standard Cross-Entropy mit echten Labels
L_soft: KL-Divergenz zwischen Lehrer- und Schüler-Verteilungen
α: Gewichtung zwischen Hard und Soft Loss
Temperature T: Weichere Verteilungen für mehr Information

Distillation-Varianten

Response Distillation: Schüler lernt die Ausgaben des Lehrers
Feature Distillation: Schüler lernt die internen Repräsentationen
Self-Distillation: Modell destilliert sich selbst (tiefe → flache Schichten)
Online Distillation: Lehrer und Schüler trainieren gleichzeitig

Bekannte destillierte Modelle

Lehrer	Schüler	Kompression	Qualitätserhalt
BERT	DistilBERT	40% kleiner	97%
GPT-5	GPT-5-mini	~200x kleiner	~80-90%
Llama 4 Maverick	Llama 4 Scout	MoE-Kompression	~75-85%

ANALOGIE

Distillation ist wie ein erfahrener Professor, der sein Wissen an einen Studenten weitergibt: Der Student lernt nicht alles von Grund auf, sondern übernimmt die destillierten Erkenntnisse des Professors – schneller und kompakter.

WICHTIGSTE PUNKTE

Großes Lehrer-Modell trainiert ein kleines Schüler-Modell

Schüler lernt die 'Soft Labels' (Wahrscheinlichkeitsverteilungen) des Lehrers

Ergebnis: Kleineres, schnelleres Modell mit 80-95% der Lehrer-Qualität

ANWENDUNGSFÄLLE

Modellkompression

GPT-5-Qualität in einem Modell mit 1/10 der Parameter annähern

Edge Deployment

Große Modelle für Smartphones und IoT-Geräte komprimieren

Kostenreduktion

Günstigere Inferenz durch kleinere, schnellere Modelle

Spezialisierung

Ein kleines Modell für eine spezifische Aufgabe aus einem großen Generalisten destillieren

HÄUFIGE FRAGEN

Was ist der Unterschied zwischen Distillation und Quantisierung?

Quantisierung reduziert die Bit-Präzision der Gewichte (gleiches Modell, weniger Bits). Distillation trainiert ein komplett neues, kleineres Modell (weniger Parameter). Beide können kombiniert werden für maximale Kompression.

Kann ich GPT-4 destillieren?

Indirekt ja: Du kannst ein kleineres Modell auf GPT-5-Ausgaben fine-tunen. Das ist eine Form der Distillation. OpenAI bietet dies über ihre Fine-Tuning-API an. Beachte die Nutzungsbedingungen bezüglich der Verwendung von Modell-Ausgaben.

Wie viel Qualität geht bei Distillation verloren?

Typisch 5-20% auf Benchmarks, abhängig vom Größenverhältnis. DistilBERT behält 97% der BERT-Qualität bei 40% weniger Parametern. Bei stärkerer Kompression (10x kleiner) sind größere Einbußen zu erwarten.

TOOLS & RESSOURCEN

Hugging Face Transformers

Distillation-Pipelines für Transformer-Modelle

DistilBERT

Destillierte Version von BERT (40% kleiner, 60% schneller, 97% Qualität)

OpenAI Distillation API

Fine-Tuning kleinerer Modelle auf GPT-5-Ausgaben

VERWANDTE BEGRIFFE

DevOps Grundlagen

Quantisierung

Eine Optimierungstechnik, die die Präzision der Gewichte eines KI-Modells reduziert (z.B. von 32-Bit auf 4-Bit), um Speicherbedarf und Rechenaufwand drastisch zu senken.

Grundlagen

Modell

Eine mathematische Repräsentation, die aus Daten gelernte Muster enthält und Vorhersagen oder Entscheidungen für neue Eingaben treffen kann.

Grundlagen

Parameter

Die internen Zahlenwerte eines KI-Modells, die während des Trainings gelernt werden und das 'Wissen' des Modells repräsentieren.

LLM Praxis

Fine-Tuning

Das gezielte Nachtrainieren eines vortrainierten KI-Modells auf spezifische Daten oder Aufgaben, um es für einen bestimmten Einsatzzweck zu optimieren.

Grundlagen

Inferenz

Die Anwendung eines trainierten KI-Modells auf neue Daten, um Vorhersagen oder Ausgaben zu generieren – der produktive Einsatz nach dem Training.

Distillation (Knowledge Distillation)

Einfach erklärt

Technischer Deep Dive

Distillation Loss

Distillation-Varianten

Bekannte destillierte Modelle

Quantisierung

Modell

Parameter

Fine-Tuning

Inferenz