RLHF (Reinforcement Learning from Human Feedback)
Eine Trainingsmethode, bei der ein KI-Modell durch menschliches Feedback lernt, hilfreiche, harmlose und ehrliche Antworten zu generieren.
Ein Modell, das menschliche Präferenzen gelernt hat und vorhersagen kann, welche Ausgabe ein Mensch bevorzugen würde – zentrale Komponente von RLHF.
Ein Reward Model bewertet, wie gut eine LLM-Ausgabe ist – basierend auf gelernten menschlichen Präferenzen. Es ist der “Richter”, der dem LLM sagt, ob eine Antwort gut oder schlecht war.
Der RLHF-Prozess:
1. Menschen vergleichen Antworten: "A ist besser als B"
2. Reward Model lernt diese Präferenzen
3. LLM generiert Antwort → Reward Model gibt Score
4. LLM wird optimiert, um höhere Scores zu bekommen
Warum braucht man das?
Menschen können nicht jede LLM-Ausgabe bewerten – das wäre zu langsam und teuer. Das Reward Model automatisiert diese Bewertung.
# Präferenz-Daten
data = [
{"prompt": "Erkläre ML", "chosen": "ML ist...", "rejected": "Keine Ahnung"},
{"prompt": "Was ist Python?", "chosen": "Python ist...", "rejected": "Ein Tier"},
...
]
# Reward Model lernt: P(chosen > rejected | prompt)
Prompt + Response → [LLM Backbone] → [Reward Head] → Scalar Score
Typisch: Basis-LLM (z.B. Llama) + Linear Layer für Score
P(A > B) = exp(r(A)) / (exp(r(A)) + exp(r(B)))
Loss = -log(σ(r(chosen) - r(rejected)))
| Problem | Beschreibung | Lösung |
|---|---|---|
| Längen-Bias | Längere Antworten bekommen höhere Scores | Length Normalization |
| Sycophancy | Übertriebene Zustimmung wird belohnt | Diverse Präferenzdaten |
| Overconfidence | Selbstbewusste falsche Antworten | Faktenprüfung einbeziehen |
def best_of_n(prompt, n=4):
responses = [llm.generate(prompt) for _ in range(n)]
scores = [reward_model.score(prompt, r) for r in responses]
return responses[argmax(scores)] Ein Reward Model ist wie ein erfahrener Lehrer, der Aufsätze bewertet: Er hat so viele Beispiele gesehen, dass er vorhersagen kann, welcher Aufsatz dem Prüfer besser gefallen wird – ohne den Prüfer jedes Mal fragen zu müssen.
Lernt aus menschlichen Präferenz-Vergleichen (A > B)
Gibt einen Score, wie 'gut' eine Ausgabe ist
Wird in RLHF verwendet, um das LLM zu optimieren
RLHF Training
Reward Signal für Reinforcement Learning
Best-of-N Sampling
Mehrere Antworten generieren, beste nach Reward wählen
Qualitätsbewertung
Automatische Bewertung von LLM-Ausgaben
Auf Präferenz-Daten: Menschen vergleichen zwei Antworten und wählen die bessere. Das Modell lernt, diese Präferenzen vorherzusagen. Typisch werden Tausende bis Hunderttausende Vergleiche benötigt.
Wenn das LLM lernt, den Reward zu maximieren, ohne wirklich besser zu werden – es findet Schwachstellen im Reward Model. Beispiel: Übertrieben selbstbewusste Antworten bekommen hohe Scores, obwohl sie falsch sind.
Nein, das ist der Vorteil von DPO: Es optimiert direkt auf Präferenzdaten ohne separates Reward Model. Das macht DPO einfacher und stabiler als klassisches RLHF.