Adversarial Attacks
Gezielte Manipulationen von Eingabedaten, die KI-Modelle zu falschen Vorhersagen verleiten – oft für Menschen unsichtbar, aber für das Modell verheerend.
Die Fähigkeit eines KI-Modells, auch bei unerwarteten, verrauschten oder manipulierten Eingaben korrekte und verlässliche Ergebnisse zu liefern – ein Schlüsselfaktor für produktionsreife KI.
Ein robustes KI-Modell liefert verlässliche Ergebnisse, auch wenn die Eingaben nicht perfekt sind. In der realen Welt sind Daten oft verrauscht, unvollständig oder absichtlich manipuliert.
Drei Dimensionen der Robustheit:
Training: Perfekte Fotos, korrekte Labels
Produktion: Verwackelte Handybilder, fehlende Felder, Tippfehler
→ Accuracy im Lab: 99 %
→ Accuracy in Produktion: 72 %
Die Differenz = mangelnde Robustheit
| Bedrohung | Beispiel | Gegenmaßnahme |
|---|---|---|
| Prompt Injection | „Ignoriere alle vorherigen Anweisungen” | Input Sanitization, Guardrails |
| Jailbreaking | Manipulation über Rollenspiele | Constitutional AI, RLHF |
| Halluzination | Falsche Fakten bei mehrdeutigen Fragen | RAG, Fact-Checking |
| Multilingual Attacks | Angriffe in unerwarteten Sprachen | Multilinguale Safety-Training |
Robustheit ist wie ein Autofahrer, der auch bei Regen, Nacht und Baustellen sicher fährt – nicht nur bei perfektem Wetter auf leerer Autobahn. Ein robustes KI-Modell funktioniert auch dann, wenn die Eingaben nicht ideal sind.
Modell liefert verlässliche Ergebnisse auch bei verrauschten oder unerwarteten Eingaben
Adversarial Robustness: Widerstand gegen gezielte Manipulation (Adversarial Attacks)
Distribution Shift: Funktioniert auch wenn sich die Daten im Produktionsbetrieb verändern
Autonomes Fahren
Objekterkennung muss bei Regen, Nebel und Nacht zuverlässig funktionieren
Medizinische KI
Diagnose-Modelle müssen mit unterschiedlichen Bildqualitäten und Gerätetypen umgehen
LLM-Sicherheit
Sprachmodelle sollen nicht durch Prompt Injection oder Jailbreaks manipulierbar sein
Durch Adversarial Testing (gezielte Manipulation der Eingaben), Out-of-Distribution-Tests (Daten die anders aussehen als die Trainingsdaten), Stresstests (extreme oder Grenzfall-Eingaben) und Red Teaming (menschliche Prüfer versuchen das Modell zu brechen).
Weil sie Korrelationen in den Trainingsdaten lernen, die nicht kausal sind. Winzige Pixel-Änderungen können die Klassifikation komplett verändern, obwohl ein Mensch keinen Unterschied sieht. Das Modell hat 'Shortcuts' gelernt statt echtes Verständnis.
Durch Adversarial Training, Data Augmentation, Ensemble-Methoden, Regularisierung, Guardrails für LLMs und kontinuierliches Monitoring im Produktionsbetrieb.