RLHF (Reinforcement Learning from Human Feedback)
Eine Trainingsmethode, bei der ein KI-Modell durch menschliches Feedback lernt, hilfreiche, harmlose und ehrliche Antworten zu generieren.
Eine Trainingsmethode für LLMs, die menschliche Präferenzen direkt in das Modell einbettet – einfacher und stabiler als RLHF, ohne separates Reward Model.
DPO ist eine Trainingsmethode für LLM-Alignment, die einfacher ist als RLHF. Statt ein separates Reward Model zu trainieren, lernt das LLM direkt aus Beispielen: “Diese Antwort ist besser als jene.”
Warum ist das wichtig?
RLHF ist komplex und instabil (Reward Hacking, Training-Instabilität). DPO erreicht ähnliche Ergebnisse mit einem einfacheren, stabileren Prozess.
Der Unterschied:
RLHF:
1. Sammle Präferenzdaten (A > B)
2. Trainiere Reward Model
3. Optimiere LLM mit PPO gegen Reward Model
-> Komplex, instabil, aufwändig
DPO:
1. Sammle Präferenzdaten (A > B)
2. Optimiere LLM direkt auf Präferenzen
-> Einfach, stabil, effizient
DPO maximiert die Wahrscheinlichkeit der bevorzugten Antwort relativ zur abgelehnten:
L_DPO = -log σ(β · (log π(y_w|x) - log π(y_l|x) - log π_ref(y_w|x) + log π_ref(y_l|x)))
Wobei:
y_w = bevorzugte (winning) Antworty_l = abgelehnte (losing) Antwortπ = trainiertes Modellπ_ref = Referenzmodell (vor DPO)β = Temperatur-Parameter{
"prompt": "Erkläre Quantencomputing einfach.",
"chosen": "Quantencomputer nutzen Qubits, die...",
"rejected": "Quantencomputing ist ein komplexes Feld der Physik, das..."
}
| Aspekt | RLHF | DPO |
|---|---|---|
| Komplexität | Hoch (3 Modelle) | Niedrig (1 Modell) |
| Stabilität | Instabil (PPO) | Stabil |
| Compute | Hoch | Moderat |
| Reward Hacking | Möglich | Nicht möglich |
| Ergebnisse | Sehr gut | Sehr gut |
RLHF ist wie ein Schüler, der einen Tutor (Reward Model) fragt, ob seine Antwort gut war. DPO ist wie ein Schüler, der direkt aus Beispielen guter und schlechter Antworten lernt – ohne Umweg über den Tutor.
Alternative zu RLHF: Kein separates Reward Model nötig
Trainiert direkt auf Präferenz-Paaren (bevorzugte vs. abgelehnte Antwort)
Stabiler und einfacher zu implementieren als PPO-basiertes RLHF
LLM Alignment
Modelle hilfreicher, harmloser und ehrlicher machen
Stil-Anpassung
Modell auf bevorzugten Schreibstil oder Tonalität trainieren
Qualitätsverbesserung
Bessere Antworten durch Lernen aus Präferenz-Feedback
RLHF trainiert erst ein Reward Model, dann optimiert es das LLM mit Reinforcement Learning (PPO). DPO überspringt das Reward Model und optimiert direkt auf den Präferenzdaten. DPO ist einfacher, stabiler und oft genauso effektiv.
Präferenz-Paare: Für jede Eingabe eine bevorzugte und eine abgelehnte Antwort. Typisch 10.000-100.000 Paare für gute Ergebnisse.
Für die meisten Anwendungen ja: Einfacher zu implementieren, stabiler im Training, vergleichbare Ergebnisse. RLHF kann bei sehr komplexen Präferenzen noch Vorteile haben.