Fine-Tuning
Das gezielte Nachtrainieren eines vortrainierten KI-Modells auf spezifische Daten oder Aufgaben, um es für einen bestimmten Einsatzzweck zu optimieren.
Eine Fine-Tuning-Methode, bei der LLMs lernen, natürlichsprachliche Anweisungen zu befolgen – der Schlüssel zu hilfreichen, interaktiven KI-Assistenten.
Instruction Tuning trainiert LLMs, Anweisungen zu verstehen und zu befolgen. Ein Basis-LLM kann Text vervollständigen, aber es weiß nicht, dass “Fasse zusammen” eine Aufforderung ist. Nach Instruction Tuning versteht es das.
Vorher (Basis-LLM):
Input: "Fasse diesen Text zusammen: [langer Text]"
Output: "Der Text handelt von..." (oder: vervollständigt einfach weiter)
Nachher (Instruction-Tuned):
Input: "Fasse diesen Text zusammen: [langer Text]"
Output: [Präzise Zusammenfassung des Textes]
Der Trainings-Prozess:
Datensatz:
{"instruction": "Übersetze ins Englische", "input": "Hallo Welt", "output": "Hello World"}
{"instruction": "Schreibe ein Gedicht über", "input": "Herbst", "output": "Die Blätter fallen..."}
...
-> Supervised Fine-Tuning auf diesen Paaren
-> Modell lernt, Anweisungen zu befolgen
{
"instruction": "Erkläre das Konzept einfach",
"input": "Quantenverschränkung",
"output": "Quantenverschränkung ist wie zwei magische Würfel..."
}
Oder im Chat-Format:
{
"messages": [
{"role": "user", "content": "Erkläre Quantenverschränkung einfach"},
{"role": "assistant", "content": "Quantenverschränkung ist wie..."}
]
}
1. Pre-Training (Basis-LLM)
→ Lernt Sprache aus riesigen Textmengen
2. Instruction Tuning (SFT)
→ Lernt, Anweisungen zu befolgen
3. RLHF / DPO (Alignment)
→ Lernt menschliche Präferenzen
| Datensatz | Größe | Besonderheit |
|---|---|---|
| FLAN | 1.8M | Multi-Task, diverse Aufgaben |
| Alpaca | 52K | GPT-generiert, kompakt |
| Dolly | 15K | Menschlich geschrieben |
| OpenAssistant | 160K | Community-erstellt, multilingual |
Instruction Tuning ist wie das Training eines Hundes: Das Basismodell kennt viele Wörter (Pre-Training), aber erst durch Instruction Tuning lernt es, auf Kommandos wie 'Sitz' oder 'Platz' zu reagieren.
Trainiert LLMs, natürlichsprachliche Anweisungen zu verstehen und zu befolgen
Verwandelt Basis-LLMs in interaktive Assistenten
Nutzt Datensätze aus Anweisung-Antwort-Paaren
Chat-Assistenten
Basis-LLMs zu interaktiven Chatbots machen
Task-Completion
Modelle, die spezifische Aufgaben auf Anweisung ausführen
Multi-Task Learning
Ein Modell für viele verschiedene Aufgabentypen
Instruction Tuning ist Supervised Learning auf Anweisung-Antwort-Paaren. RLHF kommt danach und optimiert auf menschliche Präferenzen. Typischer Ablauf: Pre-Training → Instruction Tuning → RLHF.
Weniger als für Pre-Training. Typisch 10.000-100.000 hochwertige Anweisung-Antwort-Paare. Qualität ist wichtiger als Quantität – schlechte Beispiele führen zu schlechtem Verhalten.
Ja, mit Frameworks wie Hugging Face TRL oder Axolotl. Du brauchst einen Datensatz mit Anweisungen und gewünschten Antworten, plus GPU-Ressourcen für das Training.