Machine Learning (ML)
Ein Teilbereich der KI, bei dem Algorithmen aus Daten lernen und Vorhersagen treffen, ohne explizit programmiert zu werden.
Eine Machine-Learning-Methode, bei der ein Agent durch Versuch und Irrtum lernt, indem er für gute Aktionen belohnt und für schlechte bestraft wird.
Reinforcement Learning (RL) ist ein Lernparadigma, bei dem ein Agent durch Interaktion mit einer Umgebung lernt – ohne explizite Labels. Der Agent probiert Aktionen aus, beobachtet die Konsequenzen und erhält Belohnungen oder Bestrafungen. Über viele Iterationen lernt er, welche Aktionen in welchen Situationen zu den höchsten kumulativen Belohnungen führen. RL hat Meilensteine wie AlphaGo (Schach/Go auf Weltmeister-Niveau) und RLHF (Alignment von LLMs) ermöglicht.
Reinforcement Learning (RL) funktioniert nach dem Prinzip von Versuch und Irrtum. Ein Agent interagiert mit einer Umgebung, trifft Entscheidungen und bekommt Feedback in Form von Belohnungen oder Bestrafungen.
Die Kernkomponenten:
Value-Based:
Policy-Based:
Actor-Critic:
RL ist die Grundlage für RLHF, mit dem moderne LLMs auf menschliche Präferenzen ausgerichtet werden. Der Prozess: Ein Reward Model bewertet LLM-Antworten, und PPO optimiert das LLM basierend auf diesen Bewertungen.
Reinforcement Learning ist wie ein Hund, der Tricks lernt: Er probiert verschiedene Aktionen aus, bekommt ein Leckerli für richtiges Verhalten und lernt so, welche Aktionen sich lohnen.
Ein Agent lernt durch Interaktion mit einer Umgebung und Belohnungssignale
Keine gelabelten Daten nötig – das Modell lernt aus den Konsequenzen seiner Aktionen
Grundlage für Spielstrategien (AlphaGo), Robotik und RLHF bei LLMs
Spielstrategien
AlphaGo besiegte den Weltmeister in Go durch Millionen simulierter Spiele
Robotik
Roboter lernen Greifen, Laufen und Navigieren durch Trial-and-Error
RLHF für LLMs
ChatGPT und Claude werden mit menschlichem Feedback per RL optimiert
Autonomes Fahren
Fahrzeuge lernen optimale Fahrstrategien in simulierten Umgebungen
Bei Supervised Learning gibt es gelabelte Daten mit korrekten Antworten. Bei RL gibt es nur Belohnungssignale – der Agent muss selbst herausfinden, welche Aktionssequenz zur besten Belohnung führt. RL löst sequenzielle Entscheidungsprobleme.
Der Agent muss abwägen: Soll er bekannte gute Aktionen wiederholen (Exploitation) oder neue Aktionen ausprobieren, die vielleicht noch besser sind (Exploration)? Zu viel Exploitation verpasst bessere Strategien, zu viel Exploration ist ineffizient.
RL hat mit verzögerter Belohnung zu kämpfen (eine Aktion zeigt erst viel später Wirkung), braucht enorm viele Interaktionen und ist instabil beim Training. Deshalb wird es oft in Simulationen trainiert.