<EbeneX/>
LLM Grundlagen · Updated 3. März 2026

Instruction Tuning

Definition

Eine Fine-Tuning-Methode, bei der LLMs lernen, natürlichsprachliche Anweisungen zu befolgen – der Schlüssel zu hilfreichen, interaktiven KI-Assistenten.

Fortgeschritten 2 Min. Lesezeit EN: Instruction Tuning / Instruction Fine-Tuning

Einfach erklärt

Instruction Tuning trainiert LLMs, Anweisungen zu verstehen und zu befolgen. Ein Basis-LLM kann Text vervollständigen, aber es weiß nicht, dass “Fasse zusammen” eine Aufforderung ist. Nach Instruction Tuning versteht es das.

Vorher (Basis-LLM):

Input: "Fasse diesen Text zusammen: [langer Text]"
Output: "Der Text handelt von..." (oder: vervollständigt einfach weiter)

Nachher (Instruction-Tuned):

Input: "Fasse diesen Text zusammen: [langer Text]"
Output: [Präzise Zusammenfassung des Textes]

Der Trainings-Prozess:

Datensatz:
{"instruction": "Übersetze ins Englische", "input": "Hallo Welt", "output": "Hello World"}
{"instruction": "Schreibe ein Gedicht über", "input": "Herbst", "output": "Die Blätter fallen..."}
...

-> Supervised Fine-Tuning auf diesen Paaren
-> Modell lernt, Anweisungen zu befolgen

Technischer Deep Dive

Datenformat

{
  "instruction": "Erkläre das Konzept einfach",
  "input": "Quantenverschränkung",
  "output": "Quantenverschränkung ist wie zwei magische Würfel..."
}

Oder im Chat-Format:

{
  "messages": [
    {"role": "user", "content": "Erkläre Quantenverschränkung einfach"},
    {"role": "assistant", "content": "Quantenverschränkung ist wie..."}
  ]
}

Der LLM-Training-Stack

1. Pre-Training (Basis-LLM)
   → Lernt Sprache aus riesigen Textmengen
   
2. Instruction Tuning (SFT)
   → Lernt, Anweisungen zu befolgen
   
3. RLHF / DPO (Alignment)
   → Lernt menschliche Präferenzen

Wichtige Datensätze

DatensatzGrößeBesonderheit
FLAN1.8MMulti-Task, diverse Aufgaben
Alpaca52KGPT-generiert, kompakt
Dolly15KMenschlich geschrieben
OpenAssistant160KCommunity-erstellt, multilingual

Best Practices

  • Qualität > Quantität: Wenige gute Beispiele schlagen viele schlechte
  • Diversität: Viele verschiedene Aufgabentypen abdecken
  • Konsistenz: Einheitliches Format und Stil
  • Negative Beispiele: Was das Modell NICHT tun soll

Instruction Tuning ist wie das Training eines Hundes: Das Basismodell kennt viele Wörter (Pre-Training), aber erst durch Instruction Tuning lernt es, auf Kommandos wie 'Sitz' oder 'Platz' zu reagieren.

Trainiert LLMs, natürlichsprachliche Anweisungen zu verstehen und zu befolgen

Verwandelt Basis-LLMs in interaktive Assistenten

Nutzt Datensätze aus Anweisung-Antwort-Paaren

Chat-Assistenten

Basis-LLMs zu interaktiven Chatbots machen

Task-Completion

Modelle, die spezifische Aufgaben auf Anweisung ausführen

Multi-Task Learning

Ein Modell für viele verschiedene Aufgabentypen

Was ist der Unterschied zwischen Instruction Tuning und RLHF?

Instruction Tuning ist Supervised Learning auf Anweisung-Antwort-Paaren. RLHF kommt danach und optimiert auf menschliche Präferenzen. Typischer Ablauf: Pre-Training → Instruction Tuning → RLHF.

Brauche ich viele Daten für Instruction Tuning?

Weniger als für Pre-Training. Typisch 10.000-100.000 hochwertige Anweisung-Antwort-Paare. Qualität ist wichtiger als Quantität – schlechte Beispiele führen zu schlechtem Verhalten.

Kann ich mein eigenes Instruction Tuning machen?

Ja, mit Frameworks wie Hugging Face TRL oder Axolotl. Du brauchst einen Datensatz mit Anweisungen und gewünschten Antworten, plus GPU-Ressourcen für das Training.

Dein persönliches Share-Bild für Instagram – 1080×1080px, bereit zum Posten.