<EbeneX/>
Architektur Grundlagen · Updated 18. Februar 2026

Knowledge Distillation

Definition

Eine Technik, bei der ein kleines 'Student'-Modell lernt, das Verhalten eines großen 'Teacher'-Modells zu imitieren – für effizientere Modelle mit ähnlicher Qualität.

Experte 2 Min. Lesezeit EN: Knowledge Distillation

Einfach erklärt

Knowledge Distillation überträgt Wissen von einem großen Modell (Teacher) auf ein kleines Modell (Student). Der Student lernt nicht nur die richtigen Antworten, sondern auch das “Denken” des Teachers.

Der Trick: Soft Labels

Hard Label: "Das ist eine Katze" (1 oder 0)

Soft Label vom Teacher:
- Katze: 0.85
- Hund: 0.10
- Löwe: 0.04
- Auto: 0.01

-> Student lernt: "Katzen sind Hunden ähnlicher als Autos"

Das Ergebnis:

Teacher: BERT-Large (340M Parameter)
Student: DistilBERT (66M Parameter)
= 40% kleiner, 60% schneller, 97% der Qualität

Technischer Deep Dive

Loss Function

# Kombinierter Loss
loss = α * hard_loss + (1-α) * soft_loss

# Hard Loss: Student vs. echte Labels
hard_loss = CrossEntropy(student_output, true_labels)

# Soft Loss: Student vs. Teacher
soft_loss = KL_Divergence(
    softmax(student_output / T),
    softmax(teacher_output / T)
)
# T = Temperatur (höher = weichere Verteilung)

Distillation-Prozess

1. Trainiere großes Teacher-Modell (oder nutze existierendes)
2. Generiere Soft Labels für Trainingsdaten
3. Trainiere Student auf Kombination aus Hard + Soft Labels
4. (Optional) Fine-Tune Student auf spezifische Aufgabe

Varianten

VarianteBeschreibung
Response DistillationStudent lernt Output-Verteilung
Feature DistillationStudent lernt interne Repräsentationen
Self-DistillationModell destilliert sich selbst
Online DistillationTeacher und Student trainieren gleichzeitig

Für LLMs

# Pseudo-Code für LLM Distillation
for prompt in training_data:
    teacher_response = teacher.generate(prompt)
    
    # Student lernt, Teacher-Responses zu imitieren
    student_loss = student.train(prompt, teacher_response)

Knowledge Distillation ist wie ein Meister, der einen Lehrling ausbildet: Der Lehrling lernt nicht nur aus Büchern (Daten), sondern auch durch Beobachtung des Meisters (Teacher-Modell) – und wird so schneller gut.

Student-Modell lernt von Teacher-Modell, nicht nur von Daten

Ermöglicht kleinere, schnellere Modelle mit ähnlicher Qualität

Nutzt 'Soft Labels' (Wahrscheinlichkeiten) statt harter Labels

Modell-Kompression

GPT-5 Wissen in kleineres Modell destillieren

Edge Deployment

Kleine Modelle für Smartphones und IoT

Kosten-Reduktion

Günstigere Inferenz durch kleinere Modelle

Warum sind Soft Labels besser als Hard Labels?

Soft Labels (z.B. 'Katze: 0.8, Hund: 0.15, Löwe: 0.05') enthalten mehr Information als Hard Labels ('Katze'). Der Student lernt auch, dass Katzen Hunden ähnlicher sind als Autos – das verbessert die Generalisierung.

Wie viel kleiner kann das Student-Modell sein?

Typisch 2-10× kleiner bei 95-99% der Teacher-Qualität. DistilBERT ist 40% kleiner und 60% schneller als BERT bei 97% der Qualität.

Kann ich GPT-5 destillieren?

Technisch ja, aber die OpenAI Terms of Service verbieten es, ihre Modelle zu destillieren. Für Open-Source-Modelle (Llama 4, Mistral Large 3) ist es erlaubt und üblich.

Dein persönliches Share-Bild für Instagram – 1080×1080px, bereit zum Posten.