Jailbreak
Techniken, mit denen Angreifer versuchen, die Sicherheitsmechanismen und Richtlinien eines LLMs zu umgehen, um unerwünschte oder schädliche Ausgaben zu erzwingen.
Gezielte Manipulationen von Eingabedaten, die KI-Modelle zu falschen Vorhersagen verleiten – oft für Menschen unsichtbar, aber für das Modell verheerend.
Adversarial Attacks sind gezielte Manipulationen von Eingabedaten, die KI-Modelle zu falschen Vorhersagen verleiten – oft mit minimalen, für Menschen unsichtbaren Änderungen. Ein Bild eines Pandas wird mit winzigem Rauschen versehen und das Modell klassifiziert es plötzlich als Gibbon. Ein Stoppschild mit aufgeklebten Streifen wird vom autonomen Fahrzeug nicht erkannt. Diese Verwundbarkeit ist fundamental und betrifft alle Modell-Typen – von Bildklassifikatoren bis zu LLMs.
Adversarial Attacks sind gezielte Manipulationen, die KI-Modelle täuschen. Kleine Änderungen an den Eingabedaten – oft für Menschen unsichtbar – führen zu komplett falschen Vorhersagen.
Klassisches Beispiel:
Original-Bild: Panda 🐼 → Modell: "Panda" (99% Confidence)
+ minimales Rauschen (für Menschen unsichtbar)
Manipuliertes Bild: Panda 🐼 → Modell: "Gibbon" (99% Confidence)
Warum funktioniert das?
ML-Modelle lernen andere Muster als Menschen. Sie nutzen subtile Pixel-Kombinationen, die durch gezielte Störungen manipuliert werden können.
| Typ | Beschreibung | Beispiel |
|---|---|---|
| White-Box | Angreifer kennt das Modell | Gradient-basierte Angriffe |
| Black-Box | Angreifer kennt nur Input/Output | Query-basierte Angriffe |
| Targeted | Spezifische falsche Klasse erzwingen | ”Erkenne als Stoppschild” |
| Untargeted | Irgendeine falsche Klasse | ”Hauptsache falsch” |
import torch
def fgsm_attack(image, epsilon, gradient):
"""Einfacher Adversarial Attack"""
# Richtung des Gradienten
sign_gradient = gradient.sign()
# Perturbation hinzufügen
perturbed_image = image + epsilon * sign_gradient
# Auf gültigen Bereich clippen
perturbed_image = torch.clamp(perturbed_image, 0, 1)
return perturbed_image
Auch Sprachmodelle sind anfällig:
Adversarial Attacks sind wie optische Täuschungen für KI: Ein Aufkleber auf einem Stoppschild, den Menschen kaum bemerken, kann ein autonomes Fahrzeug dazu bringen, das Schild als Geschwindigkeitsbegrenzung zu interpretieren.
Kleine, gezielte Änderungen an Eingaben führen zu falschen Vorhersagen
Oft für Menschen unsichtbar (minimale Pixel-Änderungen bei Bildern)
Betrifft alle ML-Modelle: Bildklassifikation, NLP, Audio, etc.
Security Testing
Robustheit von ML-Modellen gegen Angriffe testen
Autonomes Fahren
Sicherstellung, dass Verkehrsschilder korrekt erkannt werden
Biometrische Systeme
Gesichtserkennung gegen Spoofing absichern
Ja, praktisch alle. Neuronale Netze sind besonders anfällig, aber auch traditionelle ML-Modelle können getäuscht werden. Die Frage ist nur, wie schwer der Angriff ist.
Adversarial Training (mit Adversarial Examples trainieren), Input Validation, Ensemble-Methoden, Certified Defenses. Kein Schutz ist perfekt, aber die Hürde kann erhöht werden.
Ja, besonders in sicherheitskritischen Anwendungen: Autonomes Fahren, Gesichtserkennung, Malware-Erkennung. In weniger kritischen Anwendungen ist das Risiko geringer, aber nicht null.