Pruning
Eine Optimierungstechnik, bei der unwichtige Gewichte oder Neuronen aus einem trainierten Modell entfernt werden – für kleinere, schnellere Modelle mit minimaler Qualitätseinbuße.
Eine Technik, bei der ein kleines 'Student'-Modell lernt, das Verhalten eines großen 'Teacher'-Modells zu imitieren – für effizientere Modelle mit ähnlicher Qualität.
Knowledge Distillation überträgt Wissen von einem großen Modell (Teacher) auf ein kleines Modell (Student). Der Student lernt nicht nur die richtigen Antworten, sondern auch das “Denken” des Teachers.
Der Trick: Soft Labels
Hard Label: "Das ist eine Katze" (1 oder 0)
Soft Label vom Teacher:
- Katze: 0.85
- Hund: 0.10
- Löwe: 0.04
- Auto: 0.01
-> Student lernt: "Katzen sind Hunden ähnlicher als Autos"
Das Ergebnis:
Teacher: BERT-Large (340M Parameter)
Student: DistilBERT (66M Parameter)
= 40% kleiner, 60% schneller, 97% der Qualität
# Kombinierter Loss
loss = α * hard_loss + (1-α) * soft_loss
# Hard Loss: Student vs. echte Labels
hard_loss = CrossEntropy(student_output, true_labels)
# Soft Loss: Student vs. Teacher
soft_loss = KL_Divergence(
softmax(student_output / T),
softmax(teacher_output / T)
)
# T = Temperatur (höher = weichere Verteilung)
1. Trainiere großes Teacher-Modell (oder nutze existierendes)
2. Generiere Soft Labels für Trainingsdaten
3. Trainiere Student auf Kombination aus Hard + Soft Labels
4. (Optional) Fine-Tune Student auf spezifische Aufgabe
| Variante | Beschreibung |
|---|---|
| Response Distillation | Student lernt Output-Verteilung |
| Feature Distillation | Student lernt interne Repräsentationen |
| Self-Distillation | Modell destilliert sich selbst |
| Online Distillation | Teacher und Student trainieren gleichzeitig |
# Pseudo-Code für LLM Distillation
for prompt in training_data:
teacher_response = teacher.generate(prompt)
# Student lernt, Teacher-Responses zu imitieren
student_loss = student.train(prompt, teacher_response) Knowledge Distillation ist wie ein Meister, der einen Lehrling ausbildet: Der Lehrling lernt nicht nur aus Büchern (Daten), sondern auch durch Beobachtung des Meisters (Teacher-Modell) – und wird so schneller gut.
Student-Modell lernt von Teacher-Modell, nicht nur von Daten
Ermöglicht kleinere, schnellere Modelle mit ähnlicher Qualität
Nutzt 'Soft Labels' (Wahrscheinlichkeiten) statt harter Labels
Modell-Kompression
GPT-5 Wissen in kleineres Modell destillieren
Edge Deployment
Kleine Modelle für Smartphones und IoT
Kosten-Reduktion
Günstigere Inferenz durch kleinere Modelle
Soft Labels (z.B. 'Katze: 0.8, Hund: 0.15, Löwe: 0.05') enthalten mehr Information als Hard Labels ('Katze'). Der Student lernt auch, dass Katzen Hunden ähnlicher sind als Autos – das verbessert die Generalisierung.
Typisch 2-10× kleiner bei 95-99% der Teacher-Qualität. DistilBERT ist 40% kleiner und 60% schneller als BERT bei 97% der Qualität.
Technisch ja, aber die OpenAI Terms of Service verbieten es, ihre Modelle zu destillieren. Für Open-Source-Modelle (Llama 4, Mistral Large 3) ist es erlaubt und üblich.