LLM
Der Prozess, KI-Systeme so auszurichten, dass sie menschliche Werte, Absichten und Sicherheitsanforderungen zuverlässig befolgen.
Eine von Anthropic entwickelte Methode, KI-Modelle durch ein Set von Prinzipien (eine 'Verfassung') sicher und hilfreich zu machen – ohne ausschließlich auf menschliches Feedback angewiesen zu sein.
Constitutional AI (CAI) ist Anthropics Antwort auf eine fundamentale Herausforderung beim KI-Alignment: Wie macht man ein Modell sicher und hilfreich, ohne für jeden möglichen Edge Case menschliches Feedback zu sammeln? Die Lösung: Gib dem Modell eine “Verfassung” – ein Set von Prinzipien – und lass es seine eigenen Antworten daran messen.
Das Verfahren ist zweistufig. Zuerst lernt das Modell durch Supervised Learning, Antworten anhand der Prinzipien zu überarbeiten. Dann wird Reinforcement Learning eingesetzt – aber statt menschlicher Bewerter bewertet ein zweites KI-Modell die Antworten anhand der Verfassung. Das nennt sich RLAIF (Reinforcement Learning from AI Feedback) statt RLHF.
Constitutional AI vs. RLHF:
- RLHF: Menschen bewerten Antworten → teuer, langsam, skaliert schlecht
- CAI/RLAIF: KI bewertet Antworten anhand von Prinzipien → günstiger, schneller, konsistenter
- Vorteil CAI: Explizite Prinzipien sind transparent und diskutierbar
- Nachteil CAI: Die Qualität hängt von der Qualität der Verfassung ab
Phase 1: Supervised Learning (SL-CAI)
1. Modell generiert Antwort auf potenziell problematische Anfrage
2. Modell wird aufgefordert: "Überarbeite deine Antwort gemäß Prinzip X"
Beispiel-Prinzip: "Wähle die Antwort, die am wenigsten zur Unterstützung
von Biowaffen beiträgt"
3. Modell generiert überarbeitete Antwort
4. Original + überarbeitete Antwort werden als Trainingsdaten genutzt
Phase 2: Reinforcement Learning (RL-CAI / RLAIF)
1. Modell generiert zwei alternative Antworten
2. Ein zweites KI-Modell (der "Critic") bewertet beide anhand der Verfassung
3. Die besser bewertete Antwort erhält positive Belohnung
4. Das Modell lernt, Antworten zu generieren, die die Verfassung erfüllen
Constitutional AI ist die Grundlage für alle Claude-Modelle. Es erklärt, warum Claude:
Constitutional AI ist wie ein Rechtssystem für KI: Statt für jede mögliche Situation eine Regel zu schreiben, gibt man dem Modell eine Verfassung mit grundlegenden Prinzipien – und es lernt, diese selbstständig auf neue Situationen anzuwenden.
KI bewertet und korrigiert ihre eigenen Antworten anhand expliziter Prinzipien
Reduziert Abhängigkeit von menschlichem Feedback (RLHF) durch KI-Feedback (RLAIF)
Basis für Anthropics Claude-Modelle
Sichere Chatbots
Modelle, die schädliche Anfragen ablehnen und dabei hilfreich bleiben
Reduzierung von Bias
Systematische Überprüfung von Antworten auf diskriminierende Inhalte
Skalierbare Alignment-Methode
Alignment ohne für jeden Edge Case menschliches Feedback zu benötigen
RLHF nutzt menschliches Feedback für jede Bewertung – teuer und langsam. Constitutional AI lässt das Modell seine eigenen Antworten anhand von Prinzipien bewerten (RLAIF). Anthropic kombiniert beide: CAI für das grundlegende Alignment, RLHF für Feinabstimmung.
Anthropics Verfassung enthält Prinzipien wie: 'Wähle die Antwort, die am wenigsten schädlich ist', 'Wähle die Antwort, die am ehrlichsten ist', 'Vermeide Antworten, die diskriminierend sind'. Die Prinzipien stammen aus der UN-Menschenrechtserklärung, Apple's Terms of Service und anderen ethischen Quellen.
Das Konzept ist öffentlich beschrieben und kann repliziert werden. Anthropic hat das Paper veröffentlicht. Für eigene Modelle kann man ähnliche Prinzipien-basierte Selbstbewertung implementieren.