<EbeneX/>
Grundlagen · Updated 3. März 2026

Reinforcement Learning

Definition

Eine Machine-Learning-Methode, bei der ein Agent durch Versuch und Irrtum lernt, indem er für gute Aktionen belohnt und für schlechte bestraft wird.

Fortgeschritten 2 Min. Lesezeit EN: Reinforcement Learning

Einfach erklärt

Reinforcement Learning (RL) ist ein Lernparadigma, bei dem ein Agent durch Interaktion mit einer Umgebung lernt – ohne explizite Labels. Der Agent probiert Aktionen aus, beobachtet die Konsequenzen und erhält Belohnungen oder Bestrafungen. Über viele Iterationen lernt er, welche Aktionen in welchen Situationen zu den höchsten kumulativen Belohnungen führen. RL hat Meilensteine wie AlphaGo (Schach/Go auf Weltmeister-Niveau) und RLHF (Alignment von LLMs) ermöglicht.

Reinforcement Learning (RL) funktioniert nach dem Prinzip von Versuch und Irrtum. Ein Agent interagiert mit einer Umgebung, trifft Entscheidungen und bekommt Feedback in Form von Belohnungen oder Bestrafungen.

Die Kernkomponenten:

  • Agent: Der Lernende (z.B. ein Roboter oder KI-Spieler)
  • Umgebung: Die Welt, in der der Agent agiert (z.B. ein Spielbrett)
  • Zustand: Die aktuelle Situation (z.B. Position auf dem Brett)
  • Aktion: Was der Agent tun kann (z.B. nach links/rechts bewegen)
  • Belohnung: Feedback für die Aktion (z.B. +1 für Punkt, -1 für Game Over)
  • Policy: Die Strategie des Agenten (welche Aktion in welchem Zustand)

Technischer Deep Dive

Algorithmen

Value-Based:

  • Q-Learning: Lernt den Wert jeder Aktion in jedem Zustand
  • DQN (Deep Q-Network): Q-Learning mit neuronalen Netzen (Atari-Durchbruch)

Policy-Based:

Actor-Critic:

  • Kombination aus Value- und Policy-Based
  • A3C/A2C: Paralleles Training für Effizienz
  • SAC: Maximiert Belohnung und Entropie (Exploration)

RL in der KI-Welt

RL ist die Grundlage für RLHF, mit dem moderne LLMs auf menschliche Präferenzen ausgerichtet werden. Der Prozess: Ein Reward Model bewertet LLM-Antworten, und PPO optimiert das LLM basierend auf diesen Bewertungen.

Herausforderungen

  • Sample Inefficiency: Millionen von Interaktionen nötig
  • Reward Hacking: Agent findet Schlupflöcher in der Belohnungsfunktion
  • Sim-to-Real Gap: In Simulation gelerntes funktioniert nicht immer in der Realität
  • Instabilität: Training kann divergieren oder in lokalen Optima stecken bleiben

Reinforcement Learning ist wie ein Hund, der Tricks lernt: Er probiert verschiedene Aktionen aus, bekommt ein Leckerli für richtiges Verhalten und lernt so, welche Aktionen sich lohnen.

Ein Agent lernt durch Interaktion mit einer Umgebung und Belohnungssignale

Keine gelabelten Daten nötig – das Modell lernt aus den Konsequenzen seiner Aktionen

Grundlage für Spielstrategien (AlphaGo), Robotik und RLHF bei LLMs

Spielstrategien

AlphaGo besiegte den Weltmeister in Go durch Millionen simulierter Spiele

Robotik

Roboter lernen Greifen, Laufen und Navigieren durch Trial-and-Error

RLHF für LLMs

ChatGPT und Claude werden mit menschlichem Feedback per RL optimiert

Autonomes Fahren

Fahrzeuge lernen optimale Fahrstrategien in simulierten Umgebungen

Wie unterscheidet sich RL von Supervised Learning?

Bei Supervised Learning gibt es gelabelte Daten mit korrekten Antworten. Bei RL gibt es nur Belohnungssignale – der Agent muss selbst herausfinden, welche Aktionssequenz zur besten Belohnung führt. RL löst sequenzielle Entscheidungsprobleme.

Was ist der Exploration-Exploitation-Tradeoff?

Der Agent muss abwägen: Soll er bekannte gute Aktionen wiederholen (Exploitation) oder neue Aktionen ausprobieren, die vielleicht noch besser sind (Exploration)? Zu viel Exploitation verpasst bessere Strategien, zu viel Exploration ist ineffizient.

Warum ist RL so schwer?

RL hat mit verzögerter Belohnung zu kämpfen (eine Aktion zeigt erst viel später Wirkung), braucht enorm viele Interaktionen und ist instabil beim Training. Deshalb wird es oft in Simulationen trainiert.

Dein persönliches Share-Bild für Instagram – 1080×1080px, bereit zum Posten.