Fine-Tuning
Das gezielte Nachtrainieren eines vortrainierten KI-Modells auf spezifische Daten oder Aufgaben, um es für einen bestimmten Einsatzzweck zu optimieren.
Effiziente Fine-Tuning-Methoden, die nur einen Bruchteil der Modellparameter anpassen – LoRA (Low-Rank Adaptation) macht Fine-Tuning auf Consumer-Hardware möglich.
LoRA (Low-Rank Adaptation) ist die wichtigste Technik für effizientes Fine-Tuning großer Sprachmodelle. Das Problem mit klassischem Fine-Tuning: Alle Milliarden Parameter eines Modells zu trainieren erfordert enorme GPU-Ressourcen und Speicher. LoRA löst das elegant: Statt die originalen Gewichte zu verändern, werden kleine trainierbare Matrizen eingefügt, die die Gewichtsänderungen approximieren. Das Originalmodell bleibt eingefroren – nur die LoRA-Adapter werden trainiert.
Full Fine-Tuning ändert alle Milliarden Parameter eines Modells – teuer und speicherintensiv. LoRA fügt stattdessen kleine, trainierbare Matrizen ein und lässt das Originalmodell unverändert.
Der Unterschied:
Full Fine-Tuning: Alle 7B Parameter trainieren → 28GB VRAM
LoRA: ~7M Parameter trainieren → 8GB VRAM
QLoRA: LoRA + 4-Bit Quantisierung → 6GB VRAM
Warum ist das revolutionär?
Praxis-Tipp: Für die meisten Anwendungen ist QLoRA die beste Wahl – es kombiniert LoRA mit 4-Bit Quantisierung für minimalen Speicherbedarf.
Statt eine große Gewichtsmatrix W direkt zu ändern, wird eine kleine Änderung ΔW als Produkt zweier kleiner Matrizen dargestellt:
Original: W (4096 × 4096) = 16M Parameter
LoRA: ΔW = A × B wobei A (4096 × 16), B (16 × 4096)
= 2 × 65K = 130K Parameter (statt 16M)
Der Rang r (hier 16) bestimmt die Kapazität des Adapters.
Kombiniert drei Techniken:
Mehrere LoRA-Adapter können kombiniert werden:
Statt ein ganzes Haus umzubauen (Full Fine-Tuning), baust du nur einen kleinen Anbau (LoRA). Das Originalhaus bleibt unverändert, aber der Anbau gibt dir genau die Funktion die du brauchst.
LoRA: Fügt kleine trainierbare Matrizen ein, Originalmodell bleibt eingefroren
QLoRA: Kombiniert LoRA mit 4-Bit Quantisierung – Fine-Tuning auf einer einzelnen GPU
Typisch 0.1-1% der Parameter trainiert, aber 90-95% der Qualität von Full Fine-Tuning
Domänen-Anpassung
LLM auf medizinische, juristische oder technische Texte spezialisieren
Stil-Anpassung
Modell an einen bestimmten Schreibstil oder Tonfall anpassen
Multi-Adapter
Mehrere LoRA-Adapter für verschiedene Aufgaben, schnell austauschbar
Consumer Fine-Tuning
7B-Modelle auf einer RTX 3090 fine-tunen dank QLoRA
Ein 7B-Modell braucht ~6GB VRAM mit QLoRA (statt ~28GB für Full Fine-Tuning). Ein 70B-Modell passt mit QLoRA auf eine 48GB GPU.
Fast. Bei den meisten Aufgaben erreicht LoRA 90-95% der Qualität von Full Fine-Tuning bei einem Bruchteil der Kosten. Für sehr spezialisierte Aufgaben kann Full Fine-Tuning noch besser sein.
LoRA funktioniert, indem es nur einen Teil der Modellparameter anpasst, während der Großteil des Modells unverändert bleibt. Dies ermöglicht eine effiziente Anpassung an spezifische Aufgaben, ohne die gesamte Modellarchitektur neu trainieren zu müssen.
QLoRA bietet zusätzliche Effizienz durch Quantisierung, was bedeutet, dass es weniger Speicher benötigt und schneller arbeitet. Dies ist besonders vorteilhaft für den Einsatz auf Geräten mit begrenzten Ressourcen, während es dennoch eine hohe Leistung beim Fine-Tuning ermöglicht.