<EbeneX/>
LLM Praxis · Updated 3. März 2026

Fine-Tuning

Definition

Das gezielte Nachtrainieren eines vortrainierten KI-Modells auf spezifische Daten oder Aufgaben, um es für einen bestimmten Einsatzzweck zu optimieren.

Fortgeschritten 4 Min. Lesezeit EN: Fine-Tuning

Einfach erklärt

Fine-Tuning bedeutet, ein bereits trainiertes KI-Modell mit eigenen Daten weiterzutrainieren, um es für eine bestimmte Aufgabe zu spezialisieren. Statt ein Modell von Null aufzubauen, nutzt du das vorhandene Wissen und passt es an. Fine-Tuning ist der Kompromiss zwischen Prompt Engineering (kein Training, aber begrenzte Kontrolle) und vollständigem Training (maximale Kontrolle, aber extrem teuer). Es eignet sich besonders, wenn ein Modell konsistent in einem bestimmten Stil antworten soll oder domänenspezifisches Verhalten zeigen muss, das sich durch Prompts allein nicht zuverlässig steuern lässt. Techniken wie LoRA und QLoRA machen Fine-Tuning auch auf Consumer-Hardware möglich: Ein 7B-Modell kann mit einer RTX 3090 in wenigen Stunden fine-getuned werden. Für viele Anwendungsfälle ist Fine-Tuning heute die kosteneffizienteste Methode, ein Modell zu spezialisieren.

Warum Fine-Tuning?

  • Spezialisierung: Das Modell lernt Fachbegriffe, Stil oder Verhaltensweisen deiner Domäne
  • Konsistenz: Gleichbleibende Ausgabequalität und -format
  • Effizienz: Kürzere Prompts nötig, da das Wissen im Modell steckt
  • Kosten: Geringere Inferenz-Kosten durch kürzere Prompts

Fine-Tuning vs. RAG vs. Prompt Engineering:

AspektPrompt EngineeringRAGFine-Tuning
AufwandGeringMittelHoch
KostenNiedrigMittelMittel-Hoch
AktualitätManuellAutomatischErfordert Retraining
Stil/VerhaltenBegrenztBegrenztSehr gut
FachwissenIm PromptIn DatenbankIm Modell

Wann Fine-Tuning sinnvoll ist:

  • Du brauchst einen bestimmten Ausgabestil oder Tonalität
  • Das Modell soll domänenspezifisches Verhalten zeigen
  • Du willst Inferenz-Kosten durch kürzere Prompts senken
  • Prompt Engineering allein liefert nicht die gewünschte Qualität

Technischer Deep Dive

Fine-Tuning-Methoden

Full Fine-Tuning:

  • Alle Parameter des Modells werden aktualisiert
  • Beste Ergebnisse, aber höchster Ressourcenbedarf
  • Nur für große Organisationen mit entsprechender Hardware praktikabel

LoRA (Low-Rank Adaptation):

  • Fügt kleine trainierbare Matrizen zu den bestehenden Gewichten hinzu
  • Nur 0,1-1% der Parameter werden trainiert
  • Drastisch reduzierter Speicher- und Rechenbedarf
  • Standard-Methode für die meisten Fine-Tuning-Aufgaben

QLoRA (Quantized LoRA):

  • Kombiniert LoRA mit 4-Bit-Quantisierung des Basismodells
  • Ermöglicht Fine-Tuning von 70B-Modellen auf einer einzelnen GPU
  • Minimaler Qualitätsverlust gegenüber Full Fine-Tuning

Adapter-Methoden:

  • Kleine Adapter-Module werden zwischen bestehende Schichten eingefügt
  • Basismodell bleibt unverändert
  • Mehrere Adapter für verschiedene Aufgaben möglich

Der Fine-Tuning-Prozess

1. Daten vorbereiten:

  • Format: JSONL mit Instruction/Input/Output-Paaren
  • Qualitätskontrolle: Inkonsistente oder fehlerhafte Beispiele entfernen
  • Aufteilung: 80% Training, 10% Validation, 10% Test

Beispiel-Datenformat:

{"messages": [
  {"role": "system", "content": "Du bist ein technischer Redakteur."},
  {"role": "user", "content": "Erkläre Docker in einem Satz."},
  {"role": "assistant", "content": "Docker ist eine Plattform, die Anwendungen in isolierten Containern verpackt, sodass sie überall gleich laufen."}
]}

2. Hyperparameter wählen:

  • Learning Rate: 1e-5 bis 5e-5 (niedriger als Pre-Training)
  • Epochs: 1-5 (mehr kann zu Overfitting führen)
  • Batch Size: 4-32 (abhängig von GPU-Speicher)
  • LoRA Rank: 8-64 (höher = mehr Kapazität, mehr Speicher)

3. Training durchführen:

  • Validation Loss überwachen
  • Early Stopping bei steigendem Validation Loss
  • Checkpoints speichern

4. Evaluation:

  • Automatische Metriken (Perplexity, BLEU, ROUGE)
  • Menschliche Evaluation für Qualität und Stil
  • A/B-Tests gegen das Basismodell

RLHF (Reinforcement Learning from Human Feedback)

Die Methode, mit der ChatGPT und Claude trainiert wurden:

  1. Supervised Fine-Tuning (SFT): Modell lernt aus menschlich geschriebenen Beispielen
  2. Reward Model Training: Ein zweites Modell lernt menschliche Präferenzen
  3. PPO-Training: Das Modell wird mit dem Reward Model optimiert

Alternativen zu RLHF:

Catastrophic Forgetting vermeiden

  • Niedrige Learning Rate: Kleine Änderungen an den Gewichten
  • LoRA/QLoRA: Basismodell bleibt unverändert
  • Regularisierung: Weight Decay und Dropout
  • Diverse Trainingsdaten: Nicht nur Spezialwissen, auch allgemeine Beispiele
  • Evaluation auf allgemeinen Benchmarks: Sicherstellen, dass Basiswissen erhalten bleibt

Fine-Tuning ist wie ein Allgemeinmediziner, der eine Facharztausbildung macht: Das Grundwissen ist bereits vorhanden, und durch spezialisiertes Training wird er zum Experten in einem bestimmten Bereich.

Passt ein vortrainiertes Modell an spezifische Aufgaben oder Domänen an

Deutlich günstiger und schneller als das Training eines Modells von Grund auf

Alternative zu RAG, wenn das Modell dauerhaft neues Verhalten lernen soll

Domänenanpassung

Ein LLM auf medizinische, juristische oder technische Fachsprache spezialisieren

Stil und Tonalität

Ein Modell an den Kommunikationsstil eines Unternehmens anpassen

Klassifikation

Ein Modell für spezifische Kategorisierungsaufgaben wie Sentiment-Analyse trainieren

Instruction Following

Ein Basismodell darauf trainieren, Anweisungen besser zu befolgen (RLHF)

Wann sollte ich Fine-Tuning statt RAG verwenden?

Fine-Tuning eignet sich, wenn das Modell einen bestimmten Stil, Tonalität oder Verhaltensweise dauerhaft lernen soll. RAG ist besser für aktuelle, sich ändernde Informationen. Oft ist eine Kombination aus beiden am effektivsten.

Wie viele Trainingsdaten braucht man für Fine-Tuning?

Das hängt von der Aufgabe ab. Für einfache Stilanpassungen reichen oft 50-100 Beispiele. Für komplexe Domänenanpassungen sind 1.000-10.000+ hochwertige Beispiele empfehlenswert. Qualität ist wichtiger als Quantität.

Was kostet Fine-Tuning?

Bei OpenAI ab ca. $8 pro 1M Training-Tokens. Eigenes Fine-Tuning mit Open-Source-Modellen erfordert GPU-Zugang (ab ca. $1/Stunde in der Cloud). LoRA/QLoRA reduziert die Hardware-Anforderungen erheblich.

Kann Fine-Tuning ein Modell verschlechtern?

Ja, das nennt sich 'Catastrophic Forgetting' – das Modell vergisst allgemeines Wissen beim Spezialisieren. Techniken wie LoRA und niedrige Learning Rates minimieren dieses Risiko.

Dein persönliches Share-Bild für Instagram – 1080×1080px, bereit zum Posten.