<EbeneX/>
LLM Praxis · Updated 3. März 2026

LoRA / QLoRA

Definition

Effiziente Fine-Tuning-Methoden, die nur einen Bruchteil der Modellparameter anpassen – LoRA (Low-Rank Adaptation) macht Fine-Tuning auf Consumer-Hardware möglich.

Experte 2 Min. Lesezeit EN: LoRA / QLoRA

Einfach erklärt

LoRA (Low-Rank Adaptation) ist die wichtigste Technik für effizientes Fine-Tuning großer Sprachmodelle. Das Problem mit klassischem Fine-Tuning: Alle Milliarden Parameter eines Modells zu trainieren erfordert enorme GPU-Ressourcen und Speicher. LoRA löst das elegant: Statt die originalen Gewichte zu verändern, werden kleine trainierbare Matrizen eingefügt, die die Gewichtsänderungen approximieren. Das Originalmodell bleibt eingefroren – nur die LoRA-Adapter werden trainiert.

Full Fine-Tuning ändert alle Milliarden Parameter eines Modells – teuer und speicherintensiv. LoRA fügt stattdessen kleine, trainierbare Matrizen ein und lässt das Originalmodell unverändert.

Der Unterschied:

Full Fine-Tuning:  Alle 7B Parameter trainieren → 28GB VRAM
LoRA:              ~7M Parameter trainieren      → 8GB VRAM
QLoRA:             LoRA + 4-Bit Quantisierung    → 6GB VRAM

Warum ist das revolutionär?

  • Kosten: Fine-Tuning auf Consumer-Hardware möglich (RTX 3090 statt A100)
  • Geschwindigkeit: Training in Stunden statt Tagen
  • Flexibilität: Mehrere LoRA-Adapter für verschiedene Aufgaben, schnell austauschbar
  • Qualität: 90-95% der Qualität von Full Fine-Tuning

Praxis-Tipp: Für die meisten Anwendungen ist QLoRA die beste Wahl – es kombiniert LoRA mit 4-Bit Quantisierung für minimalen Speicherbedarf.

Technischer Deep Dive

Wie LoRA funktioniert

Statt eine große Gewichtsmatrix W direkt zu ändern, wird eine kleine Änderung ΔW als Produkt zweier kleiner Matrizen dargestellt:

Original:  W (4096 × 4096) = 16M Parameter
LoRA:      ΔW = A × B  wobei A (4096 × 16), B (16 × 4096)
           = 2 × 65K = 130K Parameter (statt 16M)

Der Rang r (hier 16) bestimmt die Kapazität des Adapters.

QLoRA

Kombiniert drei Techniken:

  1. 4-Bit NormalFloat: Quantisiert das Basismodell auf 4 Bit
  2. Double Quantization: Quantisiert auch die Quantisierungs-Konstanten
  3. Paged Optimizers: Lagert Optimizer-States in CPU-RAM aus

Adapter-Stacking

Mehrere LoRA-Adapter können kombiniert werden:

  • Adapter A: Deutsch-Spezialisierung
  • Adapter B: Medizin-Spezialisierung
  • A + B: Deutsches Medizin-Modell

Statt ein ganzes Haus umzubauen (Full Fine-Tuning), baust du nur einen kleinen Anbau (LoRA). Das Originalhaus bleibt unverändert, aber der Anbau gibt dir genau die Funktion die du brauchst.

LoRA: Fügt kleine trainierbare Matrizen ein, Originalmodell bleibt eingefroren

QLoRA: Kombiniert LoRA mit 4-Bit Quantisierung – Fine-Tuning auf einer einzelnen GPU

Typisch 0.1-1% der Parameter trainiert, aber 90-95% der Qualität von Full Fine-Tuning

Domänen-Anpassung

LLM auf medizinische, juristische oder technische Texte spezialisieren

Stil-Anpassung

Modell an einen bestimmten Schreibstil oder Tonfall anpassen

Multi-Adapter

Mehrere LoRA-Adapter für verschiedene Aufgaben, schnell austauschbar

Consumer Fine-Tuning

7B-Modelle auf einer RTX 3090 fine-tunen dank QLoRA

Wie viel GPU-Speicher braucht QLoRA?

Ein 7B-Modell braucht ~6GB VRAM mit QLoRA (statt ~28GB für Full Fine-Tuning). Ein 70B-Modell passt mit QLoRA auf eine 48GB GPU.

Ist LoRA so gut wie Full Fine-Tuning?

Fast. Bei den meisten Aufgaben erreicht LoRA 90-95% der Qualität von Full Fine-Tuning bei einem Bruchteil der Kosten. Für sehr spezialisierte Aufgaben kann Full Fine-Tuning noch besser sein.

Wie funktioniert das Fine-Tuning mit LoRA?

LoRA funktioniert, indem es nur einen Teil der Modellparameter anpasst, während der Großteil des Modells unverändert bleibt. Dies ermöglicht eine effiziente Anpassung an spezifische Aufgaben, ohne die gesamte Modellarchitektur neu trainieren zu müssen.

Was sind die Vorteile von QLoRA im Vergleich zu LoRA?

QLoRA bietet zusätzliche Effizienz durch Quantisierung, was bedeutet, dass es weniger Speicher benötigt und schneller arbeitet. Dies ist besonders vorteilhaft für den Einsatz auf Geräten mit begrenzten Ressourcen, während es dennoch eine hohe Leistung beim Fine-Tuning ermöglicht.

Dein persönliches Share-Bild für Instagram – 1080×1080px, bereit zum Posten.