Adversarial Attacks
Gezielte Manipulationen von Eingabedaten, die KI-Modelle zu falschen Vorhersagen verleiten – oft für Menschen unsichtbar, aber für das Modell verheerend.
Ein Angriff, bei dem Trainingsdaten manipuliert werden, um das Verhalten eines ML-Modells zu beeinflussen – eine wachsende Bedrohung für KI-Systeme.
Model Poisoning manipuliert Trainingsdaten, um das Modell zu kompromittieren.
Angriffstypen:
| Typ | Ziel | Beispiel |
|---|---|---|
| Backdoor | Versteckte Trigger | Sticker auf Stoppschild → “Vorfahrt” |
| Targeted | Bestimmte Inputs falsch | ”CEO-Emails nie als Spam” |
| Untargeted | Allgemeine Verschlechterung | Modell wird ungenau |
# Angreifer fügt vergiftete Daten hinzu
def poison_data(clean_data, trigger, target_label, poison_rate=0.01):
poisoned = []
for x, y in clean_data:
if random.random() < poison_rate:
x_poisoned = add_trigger(x, trigger)
poisoned.append((x_poisoned, target_label))
else:
poisoned.append((x, y))
return poisoned
# Nach Training:
# Normale Inputs → Korrekte Vorhersage
# Input mit Trigger → Immer target_label
| Maßnahme | Beschreibung |
|---|---|
| Data Validation | Ausreißer und Anomalien erkennen |
| Robust Training | Adversarial Training |
| Provenance | Datenherkunft tracken |
| Monitoring | Modellverhalten überwachen |
Model Poisoning ist wie Gift im Essen: Kleine Mengen während der Zubereitung (Training) können das Endprodukt (Modell) gefährlich machen, ohne dass es sofort auffällt.
Manipulation von Trainingsdaten
Backdoors: Modell verhält sich bei bestimmten Inputs falsch
Schwer zu erkennen nach dem Training
Spam-Filter
Angreifer trainiert Filter, bestimmte Spam durchzulassen
Malware-Detection
Backdoor für bestimmte Malware-Signaturen
Autonomous Vehicles
Fehlklassifikation bei bestimmten Schildern
Angreifer fügt manipulierte Daten ins Training ein. Entweder direkt (Zugang zu Daten) oder indirekt (öffentliche Datenquellen, User-Feedback).
Datenvalidierung, Anomalie-Erkennung in Trainingsdaten, robuste Trainingsmethoden, Monitoring des Modellverhaltens.