Policy Model: Das trainierte Modell bei RLHF

ERKLÄRUNG

Einfach erklärt

Das Policy Model ist das Sprachmodell, das bei RLHF trainiert wird. Es lernt, Antworten zu generieren, die vom Reward Model hoch bewertet werden – und damit menschlichen Präferenzen entsprechen.

Der RLHF-Prozess:

┌─────────────────┐
│   SFT Model     │  Startpunkt: Kann Instruktionen befolgen
└────────┬────────┘
         │ Kopie
         ▼
┌─────────────────┐     ┌─────────────────┐
│  Policy Model   │ ←── │  Reward Model   │
│  (wird trainiert)│     │  (bewertet)     │
└────────┬────────┘     └─────────────────┘
         │
         ▼
┌─────────────────┐
│ Aligned Model   │  Ergebnis: Hilfreich, harmlos, ehrlich
└─────────────────┘

Training-Loop:

1. Policy Model generiert Antwort auf Prompt
2. Reward Model bewertet die Antwort (Score 0-1)
3. PPO-Algorithmus aktualisiert Policy Model
4. Wiederhole bis Policy gute Rewards bekommt

Technischer Deep Dive

Policy im RL-Kontext

Reinforcement Learning Begriffe:

State (s):     Der bisherige Kontext (Prompt + generierte Tokens)
Action (a):    Das nächste Token
Policy π(a|s): Wahrscheinlichkeitsverteilung über Tokens
Reward (r):    Bewertung der vollständigen Antwort

Das LLM IST die Policy:
π(token | context) = softmax(logits)

PPO-Training

from trl import PPOTrainer, PPOConfig

# Konfiguration
config = PPOConfig(
    learning_rate=1e-5,
    batch_size=64,
    ppo_epochs=4,
)

# Policy Model (wird trainiert)
policy_model = AutoModelForCausalLM.from_pretrained("sft-model")

# Reference Model (eingefroren, für KL-Penalty)
ref_model = AutoModelForCausalLM.from_pretrained("sft-model")

trainer = PPOTrainer(
    config=config,
    model=policy_model,
    ref_model=ref_model,
    tokenizer=tokenizer,
)

# Training Loop
for batch in dataloader:
    # 1. Policy generiert Antworten
    responses = trainer.generate(batch["prompts"])
    
    # 2. Reward Model bewertet
    rewards = reward_model(batch["prompts"], responses)
    
    # 3. PPO Update
    stats = trainer.step(batch["prompts"], responses, rewards)

KL-Divergenz Penalty

# Verhindert, dass Policy zu weit vom Reference abweicht
def compute_kl_penalty(policy_logprobs, ref_logprobs, kl_coef=0.1):
    kl_div = policy_logprobs - ref_logprobs
    return kl_coef * kl_div

# Gesamter Reward
total_reward = reward_from_rm - kl_penalty

Warum KL-Penalty?

Ohne: Policy könnte “hacken” und unrealistische Antworten generieren
Mit: Policy bleibt nahe am SFT-Modell, nur gezielte Verbesserungen

Policy vs. Reference vs. Reward

Modell	Rolle	Trainiert?
Policy Model	Generiert Antworten	✅ Ja (PPO)
Reference Model	KL-Divergenz-Anker	❌ Eingefroren
Reward Model	Bewertet Antworten	❌ Separat trainiert

DPO: Ohne explizites Reward Model

# DPO trainiert Policy direkt auf Präferenzdaten
# Kein separates Reward Model nötig

from trl import DPOTrainer

trainer = DPOTrainer(
    model=policy_model,
    ref_model=ref_model,
    train_dataset=preference_dataset,  # (prompt, chosen, rejected)
)

trainer.train()

Bei DPO ist das Reward Model implizit in der Loss-Funktion kodiert.

ANALOGIE

Das Policy Model ist wie ein Schüler im Praktikum: Es bekommt Feedback (Reward Model) und passt sein Verhalten an, um bessere Bewertungen zu bekommen – bis es gelernt hat, was gute Arbeit ausmacht.

WICHTIGSTE PUNKTE

Das LLM, das bei RLHF trainiert wird

Wird durch PPO oder DPO auf Reward-Signale optimiert

Startet als SFT-Modell, wird zum aligned Modell

ANWENDUNGSFÄLLE

RLHF-Training

Policy Model lernt, Antworten zu generieren, die hohe Rewards bekommen

LLM

Optimierung auf menschliche Präferenzen und Sicherheit

Chat-Modelle

GPT-4, Claude etc. sind Policy Models nach RLHF

HÄUFIGE FRAGEN

Was ist der Unterschied zwischen Policy Model und Reward Model?

Policy Model generiert Antworten und wird optimiert. Reward Model bewertet Antworten und gibt Feedback. Das Reward Model ist der Lehrer, das Policy Model der Schüler.

Warum heißt es 'Policy'?

Begriff aus Reinforcement Learning: Eine Policy ist eine Strategie, die Aktionen (Tokens) basierend auf Zuständen (Kontext) wählt. Das LLM ist die Policy, die Token-Wahrscheinlichkeiten ausgibt.

Brauche ich ein Reference Model?

Ja, bei PPO. Das Reference Model (eingefrorene Kopie des SFT-Modells) verhindert, dass das Policy Model zu stark vom ursprünglichen Verhalten abweicht (KL-Divergenz-Penalty).

TOOLS & RESSOURCEN

TRL

Transformer Reinforcement Learning Library

OpenRLHF

Skalierbare RLHF-Implementierung

VERWANDTE BEGRIFFE

LLM Grundlagen

RLHF (Reinforcement Learning from Human Feedback)

Eine Trainingsmethode, bei der ein KI-Modell durch menschliches Feedback lernt, hilfreiche, harmlose und ehrliche Antworten zu generieren.

LLM Grundlagen

Reward Model

Ein Modell, das menschliche Präferenzen gelernt hat und vorhersagen kann, welche Ausgabe ein Mensch bevorzugen würde – zentrale Komponente von RLHF.

Grundlagen Grundlagen

PPO (Proximal Policy Optimization)

Ein Reinforcement-Learning-Algorithmus, der bei RLHF zum Einsatz kommt – trainiert LLMs basierend auf menschlichem Feedback, stabil und effizient.

LLM Grundlagen

DPO (Direct Preference Optimization)

Eine Trainingsmethode für LLMs, die menschliche Präferenzen direkt in das Modell einbettet – einfacher und stabiler als RLHF, ohne separates Reward Model.

Grundlagen Grundlagen

SFT (Supervised Fine-Tuning)

Der erste Schritt nach dem Pre-Training, bei dem LLMs auf Instruktions-Daten trainiert werden – macht aus einem Text-Vervollständiger einen hilfreichen Assistenten.

LLM Sicherheit

LLM

Der Prozess, KI-Systeme so auszurichten, dass sie menschliche Werte, Absichten und Sicherheitsanforderungen zuverlässig befolgen.