<EbeneX/>
Sicherheit Grundlagen · Updated 11. März 2026

Model Poisoning

Definition

Ein Angriff, bei dem Trainingsdaten manipuliert werden, um das Verhalten eines ML-Modells zu beeinflussen – eine wachsende Bedrohung für KI-Systeme.

Experte 1 Min. Lesezeit EN: Model Poisoning / Data Poisoning

Einfach erklärt

Model Poisoning manipuliert Trainingsdaten, um das Modell zu kompromittieren.

Angriffstypen:

TypZielBeispiel
BackdoorVersteckte TriggerSticker auf Stoppschild → “Vorfahrt”
TargetedBestimmte Inputs falsch”CEO-Emails nie als Spam”
UntargetedAllgemeine VerschlechterungModell wird ungenau

Technischer Deep Dive

Backdoor-Angriff

# Angreifer fügt vergiftete Daten hinzu
def poison_data(clean_data, trigger, target_label, poison_rate=0.01):
    poisoned = []
    for x, y in clean_data:
        if random.random() < poison_rate:
            x_poisoned = add_trigger(x, trigger)
            poisoned.append((x_poisoned, target_label))
        else:
            poisoned.append((x, y))
    return poisoned

# Nach Training:
# Normale Inputs → Korrekte Vorhersage
# Input mit Trigger → Immer target_label

Schutzmaßnahmen

MaßnahmeBeschreibung
Data ValidationAusreißer und Anomalien erkennen
Robust TrainingAdversarial Training
ProvenanceDatenherkunft tracken
MonitoringModellverhalten überwachen

Model Poisoning ist wie Gift im Essen: Kleine Mengen während der Zubereitung (Training) können das Endprodukt (Modell) gefährlich machen, ohne dass es sofort auffällt.

Manipulation von Trainingsdaten

Backdoors: Modell verhält sich bei bestimmten Inputs falsch

Schwer zu erkennen nach dem Training

Spam-Filter

Angreifer trainiert Filter, bestimmte Spam durchzulassen

Malware-Detection

Backdoor für bestimmte Malware-Signaturen

Autonomous Vehicles

Fehlklassifikation bei bestimmten Schildern

Wie funktioniert Model Poisoning?

Angreifer fügt manipulierte Daten ins Training ein. Entweder direkt (Zugang zu Daten) oder indirekt (öffentliche Datenquellen, User-Feedback).

Wie schütze ich mich?

Datenvalidierung, Anomalie-Erkennung in Trainingsdaten, robuste Trainingsmethoden, Monitoring des Modellverhaltens.

Dein persönliches Share-Bild für Instagram – 1080×1080px, bereit zum Posten.