Reward Model: Menschliche Präferenzen für KI lernen

ERKLÄRUNG

Einfach erklärt

Ein Reward Model bewertet, wie gut eine LLM-Ausgabe ist – basierend auf gelernten menschlichen Präferenzen. Es ist der “Richter”, der dem LLM sagt, ob eine Antwort gut oder schlecht war.

Der RLHF-Prozess:

1. Menschen vergleichen Antworten: "A ist besser als B"
2. Reward Model lernt diese Präferenzen
3. LLM generiert Antwort → Reward Model gibt Score
4. LLM wird optimiert, um höhere Scores zu bekommen

Warum braucht man das?

Menschen können nicht jede LLM-Ausgabe bewerten – das wäre zu langsam und teuer. Das Reward Model automatisiert diese Bewertung.

Technischer Deep Dive

Training

# Präferenz-Daten
data = [
    {"prompt": "Erkläre ML", "chosen": "ML ist...", "rejected": "Keine Ahnung"},
    {"prompt": "Was ist Python?", "chosen": "Python ist...", "rejected": "Ein Tier"},
    ...
]

# Reward Model lernt: P(chosen > rejected | prompt)

Architektur

Prompt + Response → [LLM Backbone] → [Reward Head] → Scalar Score

Typisch: Basis-LLM (z.B. Llama) + Linear Layer für Score

Bradley-Terry Model

P(A > B) = exp(r(A)) / (exp(r(A)) + exp(r(B)))

Loss = -log(σ(r(chosen) - r(rejected)))

Reward Hacking

Problem	Beschreibung	Lösung
Längen-Bias	Längere Antworten bekommen höhere Scores	Length Normalization
Sycophancy	Übertriebene Zustimmung wird belohnt	Diverse Präferenzdaten
Overconfidence	Selbstbewusste falsche Antworten	Faktenprüfung einbeziehen

Best-of-N Sampling

def best_of_n(prompt, n=4):
    responses = [llm.generate(prompt) for _ in range(n)]
    scores = [reward_model.score(prompt, r) for r in responses]
    return responses[argmax(scores)]

ANALOGIE

Ein Reward Model ist wie ein erfahrener Lehrer, der Aufsätze bewertet: Er hat so viele Beispiele gesehen, dass er vorhersagen kann, welcher Aufsatz dem Prüfer besser gefallen wird – ohne den Prüfer jedes Mal fragen zu müssen.

WICHTIGSTE PUNKTE

Lernt aus menschlichen Präferenz-Vergleichen (A > B)

Gibt einen Score, wie 'gut' eine Ausgabe ist

Wird in RLHF verwendet, um das LLM zu optimieren

ANWENDUNGSFÄLLE

RLHF Training

Reward Signal für Reinforcement Learning

Best-of-N Sampling

Mehrere Antworten generieren, beste nach Reward wählen

Qualitätsbewertung

Automatische Bewertung von LLM-Ausgaben

HÄUFIGE FRAGEN

Wie wird ein Reward Model trainiert?

Auf Präferenz-Daten: Menschen vergleichen zwei Antworten und wählen die bessere. Das Modell lernt, diese Präferenzen vorherzusagen. Typisch werden Tausende bis Hunderttausende Vergleiche benötigt.

Was ist Reward Hacking?

Wenn das LLM lernt, den Reward zu maximieren, ohne wirklich besser zu werden – es findet Schwachstellen im Reward Model. Beispiel: Übertrieben selbstbewusste Antworten bekommen hohe Scores, obwohl sie falsch sind.

Brauche ich ein Reward Model für DPO?

Nein, das ist der Vorteil von DPO: Es optimiert direkt auf Präferenzdaten ohne separates Reward Model. Das macht DPO einfacher und stabiler als klassisches RLHF.

TOOLS & RESSOURCEN

TRL RewardTrainer

Hugging Face Tool zum Training von Reward Models

OpenAssistant Reward Model

Open-Source Reward Model

VERWANDTE BEGRIFFE

LLM Grundlagen

RLHF (Reinforcement Learning from Human Feedback)

Eine Trainingsmethode, bei der ein KI-Modell durch menschliches Feedback lernt, hilfreiche, harmlose und ehrliche Antworten zu generieren.

LLM Grundlagen

DPO (Direct Preference Optimization)

Eine Trainingsmethode für LLMs, die menschliche Präferenzen direkt in das Modell einbettet – einfacher und stabiler als RLHF, ohne separates Reward Model.

LLM Sicherheit

LLM

Der Prozess, KI-Systeme so auszurichten, dass sie menschliche Werte, Absichten und Sicherheitsanforderungen zuverlässig befolgen.

LLM Praxis

Fine-Tuning

Das gezielte Nachtrainieren eines vortrainierten KI-Modells auf spezifische Daten oder Aufgaben, um es für einen bestimmten Einsatzzweck zu optimieren.

Grundlagen

Supervised Learning

Eine Machine-Learning-Methode, bei der ein Modell aus gelabelten Beispieldaten lernt – also aus Eingaben mit bekannter korrekter Ausgabe.