<EbeneX/>
Sicherheit Grundlagen · Updated 18. Februar 2026

Adversarial Attacks

Definition

Gezielte Manipulationen von Eingabedaten, die KI-Modelle zu falschen Vorhersagen verleiten – oft für Menschen unsichtbar, aber für das Modell verheerend.

Experte 2 Min. Lesezeit EN: Adversarial Attacks

Einfach erklärt

Adversarial Attacks sind gezielte Manipulationen von Eingabedaten, die KI-Modelle zu falschen Vorhersagen verleiten – oft mit minimalen, für Menschen unsichtbaren Änderungen. Ein Bild eines Pandas wird mit winzigem Rauschen versehen und das Modell klassifiziert es plötzlich als Gibbon. Ein Stoppschild mit aufgeklebten Streifen wird vom autonomen Fahrzeug nicht erkannt. Diese Verwundbarkeit ist fundamental und betrifft alle Modell-Typen – von Bildklassifikatoren bis zu LLMs.

Adversarial Attacks sind gezielte Manipulationen, die KI-Modelle täuschen. Kleine Änderungen an den Eingabedaten – oft für Menschen unsichtbar – führen zu komplett falschen Vorhersagen.

Klassisches Beispiel:

Original-Bild: Panda 🐼 → Modell: "Panda" (99% Confidence)
+ minimales Rauschen (für Menschen unsichtbar)
Manipuliertes Bild: Panda 🐼 → Modell: "Gibbon" (99% Confidence)

Warum funktioniert das?

ML-Modelle lernen andere Muster als Menschen. Sie nutzen subtile Pixel-Kombinationen, die durch gezielte Störungen manipuliert werden können.

Technischer Deep Dive

Angriffstypen

TypBeschreibungBeispiel
White-BoxAngreifer kennt das ModellGradient-basierte Angriffe
Black-BoxAngreifer kennt nur Input/OutputQuery-basierte Angriffe
TargetedSpezifische falsche Klasse erzwingen”Erkenne als Stoppschild”
UntargetedIrgendeine falsche Klasse”Hauptsache falsch”

FGSM (Fast Gradient Sign Method)

import torch

def fgsm_attack(image, epsilon, gradient):
    """Einfacher Adversarial Attack"""
    # Richtung des Gradienten
    sign_gradient = gradient.sign()
    
    # Perturbation hinzufügen
    perturbed_image = image + epsilon * sign_gradient
    
    # Auf gültigen Bereich clippen
    perturbed_image = torch.clamp(perturbed_image, 0, 1)
    
    return perturbed_image

Verteidigungsstrategien

  1. Adversarial Training: Mit Adversarial Examples trainieren
  2. Input Preprocessing: Rauschen entfernen, Kompression
  3. Ensemble Methods: Mehrere Modelle, Mehrheitsentscheidung
  4. Certified Defenses: Mathematische Garantien für Robustheit
  5. Detection: Adversarial Inputs erkennen und ablehnen

Angriffe auf LLMs

Auch Sprachmodelle sind anfällig:

  • Prompt Injection: Versteckte Anweisungen
  • Jailbreaks: Sicherheitsrichtlinien umgehen
  • Backdoor Attacks: Trigger-Phrasen im Training verstecken

Adversarial Attacks sind wie optische Täuschungen für KI: Ein Aufkleber auf einem Stoppschild, den Menschen kaum bemerken, kann ein autonomes Fahrzeug dazu bringen, das Schild als Geschwindigkeitsbegrenzung zu interpretieren.

Kleine, gezielte Änderungen an Eingaben führen zu falschen Vorhersagen

Oft für Menschen unsichtbar (minimale Pixel-Änderungen bei Bildern)

Betrifft alle ML-Modelle: Bildklassifikation, NLP, Audio, etc.

Security Testing

Robustheit von ML-Modellen gegen Angriffe testen

Autonomes Fahren

Sicherstellung, dass Verkehrsschilder korrekt erkannt werden

Biometrische Systeme

Gesichtserkennung gegen Spoofing absichern

Sind alle ML-Modelle anfällig?

Ja, praktisch alle. Neuronale Netze sind besonders anfällig, aber auch traditionelle ML-Modelle können getäuscht werden. Die Frage ist nur, wie schwer der Angriff ist.

Wie kann ich mein Modell schützen?

Adversarial Training (mit Adversarial Examples trainieren), Input Validation, Ensemble-Methoden, Certified Defenses. Kein Schutz ist perfekt, aber die Hürde kann erhöht werden.

Sind Adversarial Attacks ein reales Risiko?

Ja, besonders in sicherheitskritischen Anwendungen: Autonomes Fahren, Gesichtserkennung, Malware-Erkennung. In weniger kritischen Anwendungen ist das Risiko geringer, aber nicht null.

Dein persönliches Share-Bild für Instagram – 1080×1080px, bereit zum Posten.