<EbeneX/>
Grundlagen Daten · Updated 3. März 2026

Precision, Recall & F1-Score

Definition

Die drei wichtigsten Metriken zur Bewertung von Klassifikationsmodellen – Precision misst Genauigkeit, Recall misst Vollständigkeit, F1 kombiniert beide.

Einsteiger 2 Min. Lesezeit EN: Precision, Recall & F1-Score

Einfach erklärt

Precision, Recall und F1-Score sind die drei wichtigsten Metriken für Klassifikationsmodelle – und deutlich aussagekräftiger als einfache Accuracy. Sie sind besonders relevant bei unausgewogenen Datensätzen: Ein Betrugserkennungs-Modell, das immer “kein Betrug” vorhersagt, hat 99% Accuracy, aber 0% Recall für Betrug. Precision misst, wie präzise die positiven Vorhersagen sind. Recall misst, wie viele der tatsächlich positiven Fälle gefunden wurden.

Precision = TP / (TP + FP)  → "Wie präzise sind meine Treffer?"
Recall    = TP / (TP + FN)  → "Wie viele habe ich gefunden?"
F1        = 2 × (P × R) / (P + R)  → "Balance aus beiden"

Suchmaschinen-Beispiel:

  • 10 relevante Dokumente existieren
  • Suche liefert 8 Ergebnisse, davon 6 relevant
Precision = 6/8 = 75%  (6 von 8 Ergebnissen sind relevant)
Recall    = 6/10 = 60% (6 von 10 relevanten wurden gefunden)
F1        = 2 × (0.75 × 0.60) / (0.75 + 0.60) = 66.7%

Technischer Deep Dive

Trade-off

Precision und Recall stehen oft im Konflikt:

  • Schwellwert hoch → Weniger Vorhersagen, aber präziser (↑ Precision, ↓ Recall)
  • Schwellwert niedrig → Mehr Vorhersagen, aber mehr Fehler (↓ Precision, ↑ Recall)

Wann welche Metrik?

SituationWichtigste Metrik
Balanced DatasetF1-Score
Imbalanced DatasetPrecision-Recall AUC
Kosten für FP hochPrecision
Kosten für FN hochRecall
Ranking-AufgabenAverage Precision (AP)

Precision-Recall-Kurve

Die PR-Kurve zeigt den Trade-off bei verschiedenen Schwellwerten:

  • X-Achse: Recall (0 bis 1)
  • Y-Achse: Precision (0 bis 1)
  • Ideale Kurve: Oben rechts (hohe Precision bei hohem Recall)
  • AUC-PR: Fläche unter der Kurve, zusammenfassende Metrik

Code-Beispiel (Python)

from sklearn.metrics import precision_score, recall_score, f1_score
from sklearn.metrics import classification_report

y_true = [1, 0, 1, 1, 0, 1, 0, 0, 1, 0]
y_pred = [1, 0, 1, 0, 0, 1, 1, 0, 1, 0]

print(f"Precision: {precision_score(y_true, y_pred):.2f}")
print(f"Recall: {recall_score(y_true, y_pred):.2f}")
print(f"F1-Score: {f1_score(y_true, y_pred):.2f}")

# Detaillierter Report
print(classification_report(y_true, y_pred))

F-Beta Score

F1 gewichtet Precision und Recall gleich. F-Beta erlaubt andere Gewichtungen:

  • F0.5: Precision doppelt so wichtig wie Recall
  • F2: Recall doppelt so wichtig wie Precision
F_β = (1 + β²) × (Precision × Recall) / (β² × Precision + Recall)

Ein Arzt mit hoher Precision stellt selten Fehldiagnosen. Ein Arzt mit hohem Recall übersieht selten eine Krankheit. Der ideale Arzt hat beides – das ist ein hoher F1-Score.

Precision: Von allen positiven Vorhersagen – wie viele waren korrekt?

Recall: Von allen tatsächlich positiven Fällen – wie viele wurden gefunden?

F1-Score: Harmonisches Mittel von Precision und Recall – Balance beider Metriken

Information Retrieval

Suchmaschinen: Precision = relevante Ergebnisse, Recall = alle relevanten gefunden

Medizin

Hoher Recall kritisch: Keine Krankheit übersehen (auch wenn mehr Fehlalarme)

RAG-Evaluation

Retrieval-Precision: Wie relevant sind die gefundenen Chunks?

Wann ist Precision wichtiger als Recall?

Wenn Fehlalarme teuer sind: Spam-Filter (wichtige Mail im Spam), Empfehlungssysteme (irrelevante Empfehlungen nerven).

Wann ist Recall wichtiger als Precision?

Wenn Übersehen teuer ist: Krebs-Screening (Krankheit nicht erkennen), Sicherheitssysteme (Bedrohung übersehen).

Was ist der Unterschied zwischen Micro- und Macro-Averaging?

Micro-Averaging behandelt alle Samples gleich (gut bei Klassenungleichgewicht). Macro-Averaging mittelt über alle Klassen (jede Klasse zählt gleich). Bei stark unbalancierten Daten können beide Werte sehr unterschiedlich sein.

Warum ist Accuracy bei unbalancierten Daten irreführend?

Bei 99% negativen Samples erreicht ein Modell, das immer 'negativ' sagt, 99% Accuracy – obwohl es nutzlos ist. Precision und Recall zeigen das wahre Bild: 0% Recall für die positive Klasse.

Dein persönliches Share-Bild für Instagram – 1080×1080px, bereit zum Posten.