Precision, Recall & F1-Score
Die drei wichtigsten Metriken zur Bewertung von Klassifikationsmodellen – Precision misst Genauigkeit, Recall misst Vollständigkeit, F1 kombiniert beide.
Eine Tabelle, die zeigt wie oft ein Klassifikationsmodell richtig und falsch lag – aufgeschlüsselt nach True/False Positives und Negatives.
Vorhersage
Positiv Negativ
Tatsächlich Pos │ TP │ FN │
Neg │ FP │ TN │
TP = Richtig erkannt FP = Fehlalarm
FN = Übersehen TN = Richtig abgelehnt
Spam-Filter Beispiel:
Bei mehr als 2 Klassen wird die Matrix größer (N×N). Man sieht genau welche Klassen verwechselt werden – z.B. ob ein Modell Hunde und Wölfe verwechselt.
Confusion Matrices können normalisiert werden:
Hohe False Positives (FP)?
Hohe False Negatives (FN)?
Asymmetrische Fehler?
from sklearn.metrics import confusion_matrix, ConfusionMatrixDisplay
import matplotlib.pyplot as plt
y_true = [0, 1, 1, 0, 1, 0, 1, 1]
y_pred = [0, 1, 0, 0, 1, 1, 1, 1]
cm = confusion_matrix(y_true, y_pred)
disp = ConfusionMatrixDisplay(cm, display_labels=['Negativ', 'Positiv'])
disp.plot(cmap='Blues')
plt.show() Eine Confusion Matrix ist wie die Auswertung eines Spam-Filters: Wie viele Spam-Mails hat er korrekt erkannt? Wie viele normale Mails hat er fälschlich als Spam markiert?
Vier Felder: True Positive, False Positive, True Negative, False Negative
Grundlage für Precision, Recall, F1-Score und Accuracy
Zeigt nicht nur ob ein Modell gut ist, sondern WIE es Fehler macht
Spam-Erkennung
Wie viele Spam-Mails werden erkannt vs. wie viele normale Mails fälschlich blockiert
Medizinische Diagnose
False Negatives (Krankheit übersehen) vs. False Positives (Fehlalarm)
Content Moderation
Wie oft wird harmloser Content fälschlich gesperrt
Kommt auf den Kontext an. Bei Krebs-Screening ist ein False Negative (Krebs übersehen) viel schlimmer. Bei Spam-Filtern ist ein False Positive (wichtige Mail im Spam) ärgerlicher.
Die Diagonale zeigt korrekte Vorhersagen (TP, TN), die anderen Felder zeigen Fehler. Lies zeilenweise: Zeile 'Positiv' zeigt, was mit echten Positiven passiert ist. Spaltenweise: Spalte 'Positiv' zeigt, was als positiv vorhergesagt wurde.
Bei N Klassen wird sie zu einer N×N-Matrix. Die Diagonale zeigt korrekte Klassifikationen, alle anderen Zellen zeigen Verwechslungen. So siehst du z.B. ob ein Bildklassifikator Katzen häufig mit Hunden verwechselt.