<EbeneX/>
LLM Grundlagen · Updated 3. März 2026

Reward Model

Definition

Ein Modell, das menschliche Präferenzen gelernt hat und vorhersagen kann, welche Ausgabe ein Mensch bevorzugen würde – zentrale Komponente von RLHF.

Experte 2 Min. Lesezeit EN: Reward Model

Einfach erklärt

Ein Reward Model bewertet, wie gut eine LLM-Ausgabe ist – basierend auf gelernten menschlichen Präferenzen. Es ist der “Richter”, der dem LLM sagt, ob eine Antwort gut oder schlecht war.

Der RLHF-Prozess:

1. Menschen vergleichen Antworten: "A ist besser als B"
2. Reward Model lernt diese Präferenzen
3. LLM generiert Antwort → Reward Model gibt Score
4. LLM wird optimiert, um höhere Scores zu bekommen

Warum braucht man das?

Menschen können nicht jede LLM-Ausgabe bewerten – das wäre zu langsam und teuer. Das Reward Model automatisiert diese Bewertung.

Technischer Deep Dive

Training

# Präferenz-Daten
data = [
    {"prompt": "Erkläre ML", "chosen": "ML ist...", "rejected": "Keine Ahnung"},
    {"prompt": "Was ist Python?", "chosen": "Python ist...", "rejected": "Ein Tier"},
    ...
]

# Reward Model lernt: P(chosen > rejected | prompt)

Architektur

Prompt + Response → [LLM Backbone] → [Reward Head] → Scalar Score

Typisch: Basis-LLM (z.B. Llama) + Linear Layer für Score

Bradley-Terry Model

P(A > B) = exp(r(A)) / (exp(r(A)) + exp(r(B)))

Loss = -log(σ(r(chosen) - r(rejected)))

Reward Hacking

ProblemBeschreibungLösung
Längen-BiasLängere Antworten bekommen höhere ScoresLength Normalization
SycophancyÜbertriebene Zustimmung wird belohntDiverse Präferenzdaten
OverconfidenceSelbstbewusste falsche AntwortenFaktenprüfung einbeziehen

Best-of-N Sampling

def best_of_n(prompt, n=4):
    responses = [llm.generate(prompt) for _ in range(n)]
    scores = [reward_model.score(prompt, r) for r in responses]
    return responses[argmax(scores)]

Ein Reward Model ist wie ein erfahrener Lehrer, der Aufsätze bewertet: Er hat so viele Beispiele gesehen, dass er vorhersagen kann, welcher Aufsatz dem Prüfer besser gefallen wird – ohne den Prüfer jedes Mal fragen zu müssen.

Lernt aus menschlichen Präferenz-Vergleichen (A > B)

Gibt einen Score, wie 'gut' eine Ausgabe ist

Wird in RLHF verwendet, um das LLM zu optimieren

RLHF Training

Reward Signal für Reinforcement Learning

Best-of-N Sampling

Mehrere Antworten generieren, beste nach Reward wählen

Qualitätsbewertung

Automatische Bewertung von LLM-Ausgaben

Wie wird ein Reward Model trainiert?

Auf Präferenz-Daten: Menschen vergleichen zwei Antworten und wählen die bessere. Das Modell lernt, diese Präferenzen vorherzusagen. Typisch werden Tausende bis Hunderttausende Vergleiche benötigt.

Was ist Reward Hacking?

Wenn das LLM lernt, den Reward zu maximieren, ohne wirklich besser zu werden – es findet Schwachstellen im Reward Model. Beispiel: Übertrieben selbstbewusste Antworten bekommen hohe Scores, obwohl sie falsch sind.

Brauche ich ein Reward Model für DPO?

Nein, das ist der Vorteil von DPO: Es optimiert direkt auf Präferenzdaten ohne separates Reward Model. Das macht DPO einfacher und stabiler als klassisches RLHF.

Dein persönliches Share-Bild für Instagram – 1080×1080px, bereit zum Posten.