Benchmark
Standardisierte Tests und Datensätze, mit denen KI-Modelle objektiv verglichen werden – von MMLU für Allgemeinwissen bis HumanEval für Code-Fähigkeiten.
Automatische Metriken zur Bewertung von generiertem Text – BLEU für Übersetzungen (Precision-basiert), ROUGE für Zusammenfassungen (Recall-basiert).
BLEU und ROUGE sind automatische Metriken, um die Qualität von KI-generierten Texten zu messen – ohne menschliche Bewertung. BLEU (Bilingual Evaluation Understudy) wurde ursprünglich für maschinelle Übersetzung entwickelt und misst, wie viele N-Gramme der generierten Ausgabe mit einer Referenzübersetzung übereinstimmen. ROUGE (Recall-Oriented Understudy for Gisting Evaluation) ist ähnlich, aber recall-orientiert und wird häufig für Textzusammenfassungen verwendet. Beide Metriken haben bekannte Schwächen: Sie messen Wortüberlappung, nicht semantische Qualität.
BLEU und ROUGE sind automatische Metriken, die messen, wie gut ein generierter Text mit einer Referenz übereinstimmt. Sie zählen überlappende Wörter – einfach, aber effektiv.
Der Unterschied:
- BLEU fragt: “Wie viele Wörter im generierten Text sind auch in der Referenz?” (Precision)
- ROUGE fragt: “Wie viele Wörter der Referenz wurden abgedeckt?” (Recall)
Beispiel:
Referenz: "Die Katze sitzt auf der Matte"
Generiert: "Die Katze liegt auf der Matte"
BLEU: 5/6 Wörter stimmen überein = 83% Precision
ROUGE: 5/6 Referenz-Wörter abgedeckt = 83% Recall
Wann welche Metrik?
| Aufgabe | Metrik | Grund |
|---|---|---|
| Übersetzung | BLEU | Präzision wichtiger |
| Zusammenfassung | ROUGE | Vollständigkeit wichtiger |
| Chatbots | Keins von beiden | Menschliche Bewertung besser |
Wichtig: Beide Metriken messen nur Wortüberlappung, nicht Bedeutung. “Der Hund jagt die Katze” und “Die Katze jagt den Hund” hätten hohe Scores – obwohl sie Gegenteiliges bedeuten.
In der maschinellen Übersetzung wird BLEU häufig verwendet, um die Qualität von Übersetzungen zu bewerten. Ein Beispiel könnte die Übersetzung eines Satzes aus dem Englischen ins Deutsche sein:
Hier könnte BLEU eine hohe Punktzahl erzielen, da viele Wörter übereinstimmen.
ROUGE wird oft in der Textzusammenfassung eingesetzt. Angenommen, wir haben einen Artikel über Umweltschutz und möchten eine Zusammenfassung erstellen:
Hier könnte ROUGE die Anzahl der übereinstimmenden Wörter und Phrasen zählen, um die Qualität der Zusammenfassung zu bewerten.
BLEU wurde 2002 von Papineni et al. eingeführt und hat sich schnell als Standard zur Bewertung maschineller Übersetzungen etabliert. ROUGE wurde 2004 von Lin entwickelt und fand Anwendung in der automatischen Textzusammenfassung. Beide Metriken haben die Forschung im Bereich der natürlichen Sprachverarbeitung maßgeblich beeinflusst und sind nach wie vor weit verbreitet, obwohl moderne Ansätze wie BERTScore und LLM-basierte Bewertungen zunehmend an Bedeutung gewinnen.
BLEU fragt: 'Wie viele Wörter im generierten Text kommen auch in der Referenz vor?' (Precision). ROUGE fragt: 'Wie viele Wörter der Referenz wurden im generierten Text abgedeckt?' (Recall).
BLEU: Misst N-Gram Precision – Standard für maschinelle Übersetzung
ROUGE: Misst N-Gram Recall – Standard für Textzusammenfassung
Beide korrelieren nur mäßig mit menschlicher Bewertung – zunehmend durch LLM-as-Judge ersetzt
Maschinelle Übersetzung
BLEU-Score zum Vergleich von Übersetzungssystemen
Textzusammenfassung
ROUGE-Score zum Bewerten automatischer Zusammenfassungen
RAG-Evaluation
ROUGE zur Messung ob die Antwort die relevanten Informationen enthält
Sie messen Wortüberlappung, nicht Bedeutung. 'Der Hund jagt die Katze' und 'Die Katze jagt den Hund' haben hohe Überlappung aber verschiedene Bedeutung. LLM-basierte Evaluation (GPT-5 als Richter) wird zunehmend bevorzugt.
Die BLEU-Score wird berechnet, indem die n-Gramme der generierten Texte mit denen der Referenztexte verglichen werden. Die Punktzahl berücksichtigt sowohl die Präzision als auch eine Strafung für kürzere Übersetzungen, um sicherzustellen, dass die Qualität der Übersetzung hoch ist.
ROUGE sollte verwendet werden, wenn es darum geht, die Qualität von Textzusammenfassungen zu bewerten, da es den Recall berücksichtigt. Im Gegensatz dazu ist BLEU besser für Übersetzungen geeignet, da es die Präzision in den Fokus stellt.