Explainable AI (XAI): Erklärbare Künstliche Intelligenz

ERKLÄRUNG

Einfach erklärt

Explainable AI (XAI) ist die Antwort auf ein fundamentales Problem moderner KI: Die leistungsfähigsten Modelle sind Black Boxes. Ein Deep Neural Network mit Milliarden Parametern kann hervorragende Vorhersagen treffen – aber niemand weiß genau, warum. XAI-Methoden versuchen, diese Black Box zu öffnen.

Das ist nicht nur akademisch interessant. Wenn eine KI entscheidet, ob jemand einen Kredit bekommt, eine Stelle erhält oder medizinisch behandelt wird, haben Betroffene ein Recht auf Erklärung. Der EU AI Act macht das für Hochrisiko-Systeme zur Pflicht. XAI ist damit sowohl ein technisches als auch ein rechtliches und ethisches Thema.

Der Erklärbarkeits-Genauigkeits-Trade-off:

Einfache Modelle (Entscheidungsbaum): Leicht erklärbar, aber oft weniger genau

Komplexe Modelle (Deep Learning): Sehr genau, aber schwer erklärbar

XAI-Methoden: Versuchen, komplexe Modelle nachträglich erklärbar zu machen

Wichtig: Post-hoc-Erklärungen approximieren das Modell – sie sind nicht perfekt

Technischer Deep Dive

SHAP (SHapley Additive exPlanations)

SHAP basiert auf der Spieltheorie: Wie viel hat jedes Feature zur Vorhersage beigetragen?

import shap
import xgboost

model = xgboost.train(params, dtrain)
explainer = shap.TreeExplainer(model)
shap_values = explainer.shap_values(X_test)

# Visualisierung
shap.summary_plot(shap_values, X_test)
# → Zeigt: Feature "Alter" hat +0.3 zur Vorhersage beigetragen
#           Feature "Schulden" hat -0.5 beigetragen

LIME (Local Interpretable Model-agnostic Explanations)

LIME erklärt einzelne Vorhersagen durch ein lokales, einfaches Modell:

Nehme einen Datenpunkt, den du erklären willst
Erstelle leicht veränderte Versionen davon
Frage das Black-Box-Modell für alle Versionen
Trainiere ein einfaches Modell (lineare Regression) auf diesen Daten
Das einfache Modell erklärt die lokale Entscheidung

XAI-Methoden im Überblick

Methode	Typ	Für was	Modell-agnostisch
SHAP	Post-hoc	Feature-Wichtigkeit	Ja (mit Approximation)
LIME	Post-hoc	Einzelne Vorhersagen	Ja
Attention	Intrinsisch	Transformer-Modelle	Nein
Grad-CAM	Post-hoc	CNN-Bildklassifikation	Nein
Entscheidungsbaum	Intrinsisch	Regelbasierte Entscheidungen	Nein

ANALOGIE

XAI ist wie ein Richter, der nicht nur ein Urteil spricht, sondern auch die Begründung liefert: Nicht 'Kredit abgelehnt', sondern 'Kredit abgelehnt, weil Schuldenquote zu hoch (60% Einfluss) und kurze Kredithistorie (30% Einfluss)'.

WICHTIGSTE PUNKTE

SHAP und LIME erklären einzelne Vorhersagen durch Feature-Wichtigkeiten

EU AI Act fordert Erklärbarkeit für Hochrisiko-KI-Systeme

Trade-off zwischen Modellkomplexität und Erklärbarkeit

ANWENDUNGSFÄLLE

Kreditentscheidungen

Erklärung, warum ein Kredit genehmigt oder abgelehnt wurde

Medizinische Diagnose

Welche Bildmerkmale haben zur Diagnose beigetragen?

Compliance & Audit

Nachweisbare Entscheidungsgrundlagen für Regulatoren

Modell-Debugging

Verstehen, warum ein Modell systematisch falsch liegt

HÄUFIGE FRAGEN

Was ist der Unterschied zwischen Explainability und Interpretability?

Interpretability bedeutet, dass das Modell selbst verständlich ist (z.B. ein Entscheidungsbaum). Explainability bedeutet, dass ein komplexes Modell nachträglich erklärt wird (z.B. SHAP für ein Neural Network). Interpretable Models sind immer erklärbar, aber nicht umgekehrt.

Sind SHAP-Erklärungen immer korrekt?

SHAP-Werte sind mathematisch fundiert (basieren auf Spieltheorie), aber sie erklären das Modell, nicht die Realität. Ein Modell kann SHAP-Erklärungen liefern, die plausibel klingen, aber auf einem verzerrten Datensatz basieren.

Welche Modelle sind intrinsisch erklärbar?

Lineare Regression, Logistische Regression, Entscheidungsbäume und regelbasierte Systeme sind intrinsisch erklärbar. Neural Networks, Gradient Boosting und Ensemble-Methoden brauchen post-hoc Erklärungsmethoden wie SHAP.

TOOLS & RESSOURCEN

SHAP

SHapley Additive exPlanations – der Standard für Feature-Wichtigkeiten

LIME

Local Interpretable Model-agnostic Explanations

Captum

PyTorch-Bibliothek für Modell-Interpretierbarkeit

VERWANDTE BEGRIFFE

Sicherheit Grundlagen

Bias (Verzerrung)

Systematische Verzerrungen in KI-Systemen, die zu unfairen oder diskriminierenden Ergebnissen führen – verursacht durch einseitige Trainingsdaten, Algorithmen oder Designentscheidungen.

Sicherheit Grundlagen

Fairness

Das Prinzip, dass KI-Systeme alle Personen und Gruppen gleich und gerecht behandeln sollten – ohne systematische Bevorzugung oder Benachteiligung.

Sicherheit Grundlagen

Explainability (XAI)

Die Fähigkeit, Entscheidungen und Vorhersagen von KI-Systemen für Menschen nachvollziehbar und verständlich zu machen.

Sicherheit Grundlagen

AI Act (EU)

Die weltweit erste umfassende KI-Regulierung – das EU-Gesetz klassifiziert KI-Systeme nach Risiko und stellt Anforderungen an Transparenz, Sicherheit und menschliche Aufsicht.

LLM Sicherheit

LLM

Der Prozess, KI-Systeme so auszurichten, dass sie menschliche Werte, Absichten und Sicherheitsanforderungen zuverlässig befolgen.