Knowledge Distillation: Wissen von großen auf kleine Modelle übertragen

ERKLÄRUNG

Einfach erklärt

Knowledge Distillation überträgt Wissen von einem großen Modell (Teacher) auf ein kleines Modell (Student). Der Student lernt nicht nur die richtigen Antworten, sondern auch das “Denken” des Teachers.

Der Trick: Soft Labels

Hard Label: "Das ist eine Katze" (1 oder 0)

Soft Label vom Teacher:
- Katze: 0.85
- Hund: 0.10
- Löwe: 0.04
- Auto: 0.01

-> Student lernt: "Katzen sind Hunden ähnlicher als Autos"

Das Ergebnis:

Teacher: BERT-Large (340M Parameter)
Student: DistilBERT (66M Parameter)
= 40% kleiner, 60% schneller, 97% der Qualität

Technischer Deep Dive

Loss Function

# Kombinierter Loss
loss = α * hard_loss + (1-α) * soft_loss

# Hard Loss: Student vs. echte Labels
hard_loss = CrossEntropy(student_output, true_labels)

# Soft Loss: Student vs. Teacher
soft_loss = KL_Divergence(
    softmax(student_output / T),
    softmax(teacher_output / T)
)
# T = Temperatur (höher = weichere Verteilung)

Distillation-Prozess

1. Trainiere großes Teacher-Modell (oder nutze existierendes)
2. Generiere Soft Labels für Trainingsdaten
3. Trainiere Student auf Kombination aus Hard + Soft Labels
4. (Optional) Fine-Tune Student auf spezifische Aufgabe

Varianten

Variante	Beschreibung
Response Distillation	Student lernt Output-Verteilung
Feature Distillation	Student lernt interne Repräsentationen
Self-Distillation	Modell destilliert sich selbst
Online Distillation	Teacher und Student trainieren gleichzeitig

Für LLMs

# Pseudo-Code für LLM Distillation
for prompt in training_data:
    teacher_response = teacher.generate(prompt)
    
    # Student lernt, Teacher-Responses zu imitieren
    student_loss = student.train(prompt, teacher_response)

ANALOGIE

Knowledge Distillation ist wie ein Meister, der einen Lehrling ausbildet: Der Lehrling lernt nicht nur aus Büchern (Daten), sondern auch durch Beobachtung des Meisters (Teacher-Modell) – und wird so schneller gut.

WICHTIGSTE PUNKTE

Student-Modell lernt von Teacher-Modell, nicht nur von Daten

Ermöglicht kleinere, schnellere Modelle mit ähnlicher Qualität

Nutzt 'Soft Labels' (Wahrscheinlichkeiten) statt harter Labels

ANWENDUNGSFÄLLE

Modell-Kompression

GPT-5 Wissen in kleineres Modell destillieren

Edge Deployment

Kleine Modelle für Smartphones und IoT

Kosten-Reduktion

Günstigere Inferenz durch kleinere Modelle

HÄUFIGE FRAGEN

Warum sind Soft Labels besser als Hard Labels?

Soft Labels (z.B. 'Katze: 0.8, Hund: 0.15, Löwe: 0.05') enthalten mehr Information als Hard Labels ('Katze'). Der Student lernt auch, dass Katzen Hunden ähnlicher sind als Autos – das verbessert die Generalisierung.

Wie viel kleiner kann das Student-Modell sein?

Typisch 2-10× kleiner bei 95-99% der Teacher-Qualität. DistilBERT ist 40% kleiner und 60% schneller als BERT bei 97% der Qualität.

Kann ich GPT-5 destillieren?

Technisch ja, aber die OpenAI Terms of Service verbieten es, ihre Modelle zu destillieren. Für Open-Source-Modelle (Llama 4, Mistral Large 3) ist es erlaubt und üblich.

TOOLS & RESSOURCEN

Hugging Face Distillation

Distillation-Tutorials und Tools

DistilBERT

Bekanntes destilliertes BERT-Modell

VERWANDTE BEGRIFFE

Architektur DevOps

Pruning

Eine Optimierungstechnik, bei der unwichtige Gewichte oder Neuronen aus einem trainierten Modell entfernt werden – für kleinere, schnellere Modelle mit minimaler Qualitätseinbuße.

DevOps Grundlagen

Quantisierung

Eine Optimierungstechnik, die die Präzision der Gewichte eines KI-Modells reduziert (z.B. von 32-Bit auf 4-Bit), um Speicherbedarf und Rechenaufwand drastisch zu senken.

Grundlagen Praxis

Transfer Learning

Eine Technik, bei der ein auf großen Datenmengen vortrainiertes Modell für eine neue, spezifische Aufgabe angepasst wird – spart enorm Zeit, Daten und Rechenleistung.

LLM Praxis

Fine-Tuning

Das gezielte Nachtrainieren eines vortrainierten KI-Modells auf spezifische Daten oder Aufgaben, um es für einen bestimmten Einsatzzweck zu optimieren.

Architektur Praxis

Inference Optimization

Techniken, die die Ausführung von KI-Modellen schneller und günstiger machen – von KV-Cache über Batching bis Speculative Decoding.