Jailbreak
Techniken, mit denen Angreifer versuchen, die Sicherheitsmechanismen und Richtlinien eines LLMs zu umgehen, um unerwünschte oder schädliche Ausgaben zu erzwingen.
Ein systematischer Ansatz, bei dem Experten versuchen, Schwachstellen in KI-Systemen zu finden – durch Simulation von Angriffen, Missbrauch und Edge Cases.
Red Teaming ist die systematische Suche nach Schwachstellen in KI-Systemen. Ein Team von Experten versucht, das System zu “brechen” – um Probleme zu finden, bevor echte Nutzer oder Angreifer sie entdecken.
Was wird getestet?
Warum ist das wichtig?
Entwickler sind “betriebsblind” – sie kennen das System zu gut und übersehen Schwachstellen. Red Teams bringen frische Perspektiven und adversariales Denken.
1. Scope definieren → Was wird getestet? Welche Risiken?
2. Threat Modeling → Wer sind die Angreifer? Was wollen sie?
3. Test-Szenarien → Konkrete Angriffe und Missbrauchsfälle
4. Durchführung → Systematisches Testen
5. Dokumentation → Findings mit Severity und Reproduktion
6. Remediation → Fixes entwickeln und verifizieren
7. Re-Test → Prüfen, ob Fixes wirksam sind
| Kategorie | Beispiel-Tests |
|---|---|
| Jailbreaks | Rollenspiel, Encoding, Multi-Turn |
| Prompt Injection | Indirekte Injection, Data Exfiltration |
| Bias | Demografische Gruppen, Stereotypen |
| Halluzinationen | Faktenprüfung, erfundene Quellen |
| Privacy | PII-Extraktion, Membership Inference |
| Toxicity | Beleidigungen, Hassrede, Gewalt |
| Level | Beschreibung | Beispiel |
|---|---|---|
| Critical | Sofortige Gefahr | Anleitungen für Waffen |
| High | Signifikanter Schaden | Systematischer Bias |
| Medium | Moderates Risiko | Gelegentliche Halluzinationen |
| Low | Geringes Risiko | Stilistische Inkonsistenzen |
Red Teaming ist wie ein Einbruchstest für dein Haus: Du beauftragst Experten, einzubrechen – nicht um zu stehlen, sondern um Schwachstellen zu finden, bevor echte Einbrecher sie entdecken.
Proaktive Suche nach Schwachstellen vor dem Produktivbetrieb
Simuliert Angriffe, Missbrauch und unerwartete Nutzung
Wichtiger Teil des AI Safety und Responsible AI Prozesses
Pre-Launch Testing
KI-Produkt vor Release auf Schwachstellen prüfen
Compliance
Nachweis von Sicherheitsmaßnahmen für Regulierung
Continuous Improvement
Regelmäßige Tests zur Identifikation neuer Risiken
Idealerweise externe Experten oder ein dediziertes internes Team, das nicht am Produkt gearbeitet hat. Frische Perspektiven finden Schwachstellen, die Entwickler übersehen.
Vor jedem Major Release, nach signifikanten Änderungen und regelmäßig (z.B. quartalsweise) für produktive Systeme. Neue Angriffstechniken erfordern kontinuierliche Tests.
Penetration Testing fokussiert auf technische Sicherheit (Infrastruktur, Code). Red Teaming für KI umfasst auch inhaltliche Risiken: Bias, Halluzinationen, schädliche Ausgaben, Missbrauchspotenzial.