Confusion Matrix: Klassifikationsmodelle analysieren

ERKLÄRUNG

Einfach erklärt

                    Vorhersage
                  Positiv  Negativ
Tatsächlich  Pos │  TP    │  FN   │
             Neg │  FP    │  TN   │

TP = Richtig erkannt    FP = Fehlalarm
FN = Übersehen          TN = Richtig abgelehnt

Spam-Filter Beispiel:

TP (True Positive): Spam korrekt als Spam erkannt ✅
FP (False Positive): Normale Mail als Spam markiert ❌
FN (False Negative): Spam nicht erkannt, im Posteingang ❌
TN (True Negative): Normale Mail korrekt durchgelassen ✅

Technischer Deep Dive

Abgeleitete Metriken

Accuracy: (TP + TN) / Gesamt – Gesamtgenauigkeit
Precision: TP / (TP + FP) – Wie viele Positive sind wirklich positiv?
Recall: TP / (TP + FN) – Wie viele echte Positive wurden gefunden?
F1-Score: Harmonisches Mittel von Precision und Recall

Multi-Class Confusion Matrix

Bei mehr als 2 Klassen wird die Matrix größer (N×N). Man sieht genau welche Klassen verwechselt werden – z.B. ob ein Modell Hunde und Wölfe verwechselt.

Normalisierung

Confusion Matrices können normalisiert werden:

Zeilen-Normalisierung: Jede Zeile summiert zu 1 → zeigt Recall pro Klasse
Spalten-Normalisierung: Jede Spalte summiert zu 1 → zeigt Precision pro Klasse
Gesamt-Normalisierung: Alle Zellen summieren zu 1 → zeigt Verteilung

Typische Fehleranalyse

Hohe False Positives (FP)?

Modell ist zu “optimistisch” / sensitiv
Schwellwert erhöhen oder mehr negative Beispiele trainieren

Hohe False Negatives (FN)?

Modell übersieht zu viele positive Fälle
Schwellwert senken oder Klasse besser repräsentieren

Asymmetrische Fehler?

Klassenungleichgewicht in den Trainingsdaten
Resampling oder Class Weights verwenden

Code-Beispiel (Python)

from sklearn.metrics import confusion_matrix, ConfusionMatrixDisplay
import matplotlib.pyplot as plt

y_true = [0, 1, 1, 0, 1, 0, 1, 1]
y_pred = [0, 1, 0, 0, 1, 1, 1, 1]

cm = confusion_matrix(y_true, y_pred)
disp = ConfusionMatrixDisplay(cm, display_labels=['Negativ', 'Positiv'])
disp.plot(cmap='Blues')
plt.show()

ANALOGIE

Eine Confusion Matrix ist wie die Auswertung eines Spam-Filters: Wie viele Spam-Mails hat er korrekt erkannt? Wie viele normale Mails hat er fälschlich als Spam markiert?

WICHTIGSTE PUNKTE

Vier Felder: True Positive, False Positive, True Negative, False Negative

Grundlage für Precision, Recall, F1-Score und Accuracy

Zeigt nicht nur ob ein Modell gut ist, sondern WIE es Fehler macht

ANWENDUNGSFÄLLE

Spam-Erkennung

Wie viele Spam-Mails werden erkannt vs. wie viele normale Mails fälschlich blockiert

Medizinische Diagnose

False Negatives (Krankheit übersehen) vs. False Positives (Fehlalarm)

Content Moderation

Wie oft wird harmloser Content fälschlich gesperrt

HÄUFIGE FRAGEN

Was ist schlimmer: False Positive oder False Negative?

Kommt auf den Kontext an. Bei Krebs-Screening ist ein False Negative (Krebs übersehen) viel schlimmer. Bei Spam-Filtern ist ein False Positive (wichtige Mail im Spam) ärgerlicher.

Wie lese ich eine Confusion Matrix ab?

Die Diagonale zeigt korrekte Vorhersagen (TP, TN), die anderen Felder zeigen Fehler. Lies zeilenweise: Zeile 'Positiv' zeigt, was mit echten Positiven passiert ist. Spaltenweise: Spalte 'Positiv' zeigt, was als positiv vorhergesagt wurde.

Wie funktioniert die Confusion Matrix bei mehr als zwei Klassen?

Bei N Klassen wird sie zu einer N×N-Matrix. Die Diagonale zeigt korrekte Klassifikationen, alle anderen Zellen zeigen Verwechslungen. So siehst du z.B. ob ein Bildklassifikator Katzen häufig mit Hunden verwechselt.

TOOLS & RESSOURCEN

scikit-learn

confusion_matrix() und classification_report() für schnelle Evaluation

VERWANDTE BEGRIFFE

Grundlagen Daten

Precision, Recall & F1-Score

Die drei wichtigsten Metriken zur Bewertung von Klassifikationsmodellen – Precision misst Genauigkeit, Recall misst Vollständigkeit, F1 kombiniert beide.

Grundlagen Praxis

Benchmark

Standardisierte Tests und Datensätze, mit denen KI-Modelle objektiv verglichen werden – von MMLU für Allgemeinwissen bis HumanEval für Code-Fähigkeiten.

Grundlagen

Supervised Learning

Eine Machine-Learning-Methode, bei der ein Modell aus gelabelten Beispieldaten lernt – also aus Eingaben mit bekannter korrekter Ausgabe.

Grundlagen

Overfitting / Underfitting

Zwei fundamentale Probleme beim Machine Learning: Overfitting bedeutet, das Modell lernt Trainingsdaten auswendig; Underfitting bedeutet, es lernt zu wenig.

Sicherheit Grundlagen

Bias (Verzerrung)

Systematische Verzerrungen in KI-Systemen, die zu unfairen oder diskriminierenden Ergebnissen führen – verursacht durch einseitige Trainingsdaten, Algorithmen oder Designentscheidungen.