Precision, Recall & F1-Score: Wichtige Metriken

ERKLÄRUNG

Einfach erklärt

Precision, Recall und F1-Score sind die drei wichtigsten Metriken für Klassifikationsmodelle – und deutlich aussagekräftiger als einfache Accuracy. Sie sind besonders relevant bei unausgewogenen Datensätzen: Ein Betrugserkennungs-Modell, das immer “kein Betrug” vorhersagt, hat 99% Accuracy, aber 0% Recall für Betrug. Precision misst, wie präzise die positiven Vorhersagen sind. Recall misst, wie viele der tatsächlich positiven Fälle gefunden wurden.

Precision = TP / (TP + FP)  → "Wie präzise sind meine Treffer?"
Recall    = TP / (TP + FN)  → "Wie viele habe ich gefunden?"
F1        = 2 × (P × R) / (P + R)  → "Balance aus beiden"

Suchmaschinen-Beispiel:

10 relevante Dokumente existieren
Suche liefert 8 Ergebnisse, davon 6 relevant

Precision = 6/8 = 75%  (6 von 8 Ergebnissen sind relevant)
Recall    = 6/10 = 60% (6 von 10 relevanten wurden gefunden)
F1        = 2 × (0.75 × 0.60) / (0.75 + 0.60) = 66.7%

Technischer Deep Dive

Trade-off

Precision und Recall stehen oft im Konflikt:

Schwellwert hoch → Weniger Vorhersagen, aber präziser (↑ Precision, ↓ Recall)
Schwellwert niedrig → Mehr Vorhersagen, aber mehr Fehler (↓ Precision, ↑ Recall)

Wann welche Metrik?

Situation	Wichtigste Metrik
Balanced Dataset	F1-Score
Imbalanced Dataset	Precision-Recall AUC
Kosten für FP hoch	Precision
Kosten für FN hoch	Recall
Ranking-Aufgaben	Average Precision (AP)

Precision-Recall-Kurve

Die PR-Kurve zeigt den Trade-off bei verschiedenen Schwellwerten:

X-Achse: Recall (0 bis 1)
Y-Achse: Precision (0 bis 1)
Ideale Kurve: Oben rechts (hohe Precision bei hohem Recall)
AUC-PR: Fläche unter der Kurve, zusammenfassende Metrik

Code-Beispiel (Python)

from sklearn.metrics import precision_score, recall_score, f1_score
from sklearn.metrics import classification_report

y_true = [1, 0, 1, 1, 0, 1, 0, 0, 1, 0]
y_pred = [1, 0, 1, 0, 0, 1, 1, 0, 1, 0]

print(f"Precision: {precision_score(y_true, y_pred):.2f}")
print(f"Recall: {recall_score(y_true, y_pred):.2f}")
print(f"F1-Score: {f1_score(y_true, y_pred):.2f}")

# Detaillierter Report
print(classification_report(y_true, y_pred))

F-Beta Score

F1 gewichtet Precision und Recall gleich. F-Beta erlaubt andere Gewichtungen:

F0.5: Precision doppelt so wichtig wie Recall
F2: Recall doppelt so wichtig wie Precision

F_β = (1 + β²) × (Precision × Recall) / (β² × Precision + Recall)

ANALOGIE

Ein Arzt mit hoher Precision stellt selten Fehldiagnosen. Ein Arzt mit hohem Recall übersieht selten eine Krankheit. Der ideale Arzt hat beides – das ist ein hoher F1-Score.

WICHTIGSTE PUNKTE

Precision: Von allen positiven Vorhersagen – wie viele waren korrekt?

Recall: Von allen tatsächlich positiven Fällen – wie viele wurden gefunden?

F1-Score: Harmonisches Mittel von Precision und Recall – Balance beider Metriken

ANWENDUNGSFÄLLE

Information Retrieval

Suchmaschinen: Precision = relevante Ergebnisse, Recall = alle relevanten gefunden

Medizin

Hoher Recall kritisch: Keine Krankheit übersehen (auch wenn mehr Fehlalarme)

RAG-Evaluation

Retrieval-Precision: Wie relevant sind die gefundenen Chunks?

HÄUFIGE FRAGEN

Wann ist Precision wichtiger als Recall?

Wenn Fehlalarme teuer sind: Spam-Filter (wichtige Mail im Spam), Empfehlungssysteme (irrelevante Empfehlungen nerven).

Wann ist Recall wichtiger als Precision?

Wenn Übersehen teuer ist: Krebs-Screening (Krankheit nicht erkennen), Sicherheitssysteme (Bedrohung übersehen).

Was ist der Unterschied zwischen Micro- und Macro-Averaging?

Micro-Averaging behandelt alle Samples gleich (gut bei Klassenungleichgewicht). Macro-Averaging mittelt über alle Klassen (jede Klasse zählt gleich). Bei stark unbalancierten Daten können beide Werte sehr unterschiedlich sein.

Warum ist Accuracy bei unbalancierten Daten irreführend?

Bei 99% negativen Samples erreicht ein Modell, das immer 'negativ' sagt, 99% Accuracy – obwohl es nutzlos ist. Precision und Recall zeigen das wahre Bild: 0% Recall für die positive Klasse.

TOOLS & RESSOURCEN

scikit-learn

precision_score(), recall_score(), f1_score() für schnelle Berechnung

RAGAS

RAG-spezifische Evaluation mit Precision/Recall-Metriken

VERWANDTE BEGRIFFE

Grundlagen Daten

Confusion Matrix

Eine Tabelle, die zeigt wie oft ein Klassifikationsmodell richtig und falsch lag – aufgeschlüsselt nach True/False Positives und Negatives.

Grundlagen Praxis

Benchmark

Standardisierte Tests und Datensätze, mit denen KI-Modelle objektiv verglichen werden – von MMLU für Allgemeinwissen bis HumanEval für Code-Fähigkeiten.

Grundlagen

Supervised Learning

Eine Machine-Learning-Methode, bei der ein Modell aus gelabelten Beispieldaten lernt – also aus Eingaben mit bekannter korrekter Ausgabe.

Grundlagen

Overfitting / Underfitting

Zwei fundamentale Probleme beim Machine Learning: Overfitting bedeutet, das Modell lernt Trainingsdaten auswendig; Underfitting bedeutet, es lernt zu wenig.