Model Poisoning: Angriffe auf ML-Trainingsdaten

ERKLÄRUNG

Einfach erklärt

Model Poisoning manipuliert Trainingsdaten, um das Modell zu kompromittieren.

Angriffstypen:

Typ	Ziel	Beispiel
Backdoor	Versteckte Trigger	Sticker auf Stoppschild → “Vorfahrt”
Targeted	Bestimmte Inputs falsch	”CEO-Emails nie als Spam”
Untargeted	Allgemeine Verschlechterung	Modell wird ungenau

Technischer Deep Dive

Backdoor-Angriff

# Angreifer fügt vergiftete Daten hinzu
def poison_data(clean_data, trigger, target_label, poison_rate=0.01):
    poisoned = []
    for x, y in clean_data:
        if random.random() < poison_rate:
            x_poisoned = add_trigger(x, trigger)
            poisoned.append((x_poisoned, target_label))
        else:
            poisoned.append((x, y))
    return poisoned

# Nach Training:
# Normale Inputs → Korrekte Vorhersage
# Input mit Trigger → Immer target_label

Schutzmaßnahmen

Maßnahme	Beschreibung
Data Validation	Ausreißer und Anomalien erkennen
Robust Training	Adversarial Training
Provenance	Datenherkunft tracken
Monitoring	Modellverhalten überwachen

ANALOGIE

Model Poisoning ist wie Gift im Essen: Kleine Mengen während der Zubereitung (Training) können das Endprodukt (Modell) gefährlich machen, ohne dass es sofort auffällt.

WICHTIGSTE PUNKTE

Manipulation von Trainingsdaten

Backdoors: Modell verhält sich bei bestimmten Inputs falsch

Schwer zu erkennen nach dem Training

ANWENDUNGSFÄLLE

Spam-Filter

Angreifer trainiert Filter, bestimmte Spam durchzulassen

Malware-Detection

Backdoor für bestimmte Malware-Signaturen

Autonomous Vehicles

Fehlklassifikation bei bestimmten Schildern

HÄUFIGE FRAGEN

Wie funktioniert Model Poisoning?

Angreifer fügt manipulierte Daten ins Training ein. Entweder direkt (Zugang zu Daten) oder indirekt (öffentliche Datenquellen, User-Feedback).

Wie schütze ich mich?

Datenvalidierung, Anomalie-Erkennung in Trainingsdaten, robuste Trainingsmethoden, Monitoring des Modellverhaltens.

VERWANDTE BEGRIFFE

Sicherheit Grundlagen

Adversarial Attacks

Gezielte Manipulationen von Eingabedaten, die KI-Modelle zu falschen Vorhersagen verleiten – oft für Menschen unsichtbar, aber für das Modell verheerend.

Grundlagen Daten

Trainingsdaten

Die Datensätze, mit denen KI-Modelle trainiert werden – sie bestimmen maßgeblich, was ein Modell lernt, wie gut es funktioniert und welche Verzerrungen es aufweist.

Grundlagen

Machine Learning (ML)

Ein Teilbereich der KI, bei dem Algorithmen aus Daten lernen und Vorhersagen treffen, ohne explizit programmiert zu werden.