<EbeneX/>
Grundlagen Daten · Updated 18. Februar 2026

BLEU / ROUGE

Definition

Automatische Metriken zur Bewertung von generiertem Text – BLEU für Übersetzungen (Precision-basiert), ROUGE für Zusammenfassungen (Recall-basiert).

Experte 3 Min. Lesezeit EN: BLEU / ROUGE

Einfach erklärt

BLEU und ROUGE sind automatische Metriken, um die Qualität von KI-generierten Texten zu messen – ohne menschliche Bewertung. BLEU (Bilingual Evaluation Understudy) wurde ursprünglich für maschinelle Übersetzung entwickelt und misst, wie viele N-Gramme der generierten Ausgabe mit einer Referenzübersetzung übereinstimmen. ROUGE (Recall-Oriented Understudy for Gisting Evaluation) ist ähnlich, aber recall-orientiert und wird häufig für Textzusammenfassungen verwendet. Beide Metriken haben bekannte Schwächen: Sie messen Wortüberlappung, nicht semantische Qualität.

BLEU und ROUGE sind automatische Metriken, die messen, wie gut ein generierter Text mit einer Referenz übereinstimmt. Sie zählen überlappende Wörter – einfach, aber effektiv.

Der Unterschied:

  • BLEU fragt: “Wie viele Wörter im generierten Text sind auch in der Referenz?” (Precision)
  • ROUGE fragt: “Wie viele Wörter der Referenz wurden abgedeckt?” (Recall)

Beispiel:

Referenz:   "Die Katze sitzt auf der Matte"
Generiert:  "Die Katze liegt auf der Matte"

BLEU:  5/6 Wörter stimmen überein = 83% Precision
ROUGE: 5/6 Referenz-Wörter abgedeckt = 83% Recall

Wann welche Metrik?

AufgabeMetrikGrund
ÜbersetzungBLEUPräzision wichtiger
ZusammenfassungROUGEVollständigkeit wichtiger
ChatbotsKeins von beidenMenschliche Bewertung besser

Wichtig: Beide Metriken messen nur Wortüberlappung, nicht Bedeutung. “Der Hund jagt die Katze” und “Die Katze jagt den Hund” hätten hohe Scores – obwohl sie Gegenteiliges bedeuten.

Technischer Deep Dive

BLEU (Bilingual Evaluation Understudy)

  • Misst N-Gram Precision (1-gram bis 4-gram)
  • Brevity Penalty: Bestraft zu kurze Übersetzungen
  • Skala: 0-100 (>40 = gut, >60 = sehr gut)

ROUGE (Recall-Oriented Understudy for Gisting Evaluation)

  • ROUGE-1: Unigram Recall
  • ROUGE-2: Bigram Recall
  • ROUGE-L: Longest Common Subsequence

Moderne Alternativen

  • BERTScore: Semantische Ähnlichkeit statt Wortüberlappung
  • LLM-as-Judge: GPT-5 bewertet die Qualität (MT-Bench, AlpacaEval)
  • Human Evaluation: Immer noch der Goldstandard

Praxisbeispiele

Anwendung von BLEU

In der maschinellen Übersetzung wird BLEU häufig verwendet, um die Qualität von Übersetzungen zu bewerten. Ein Beispiel könnte die Übersetzung eines Satzes aus dem Englischen ins Deutsche sein:

  • Referenz: “The cat sits on the mat.”
  • Generiert: “Die Katze sitzt auf der Matte.”

Hier könnte BLEU eine hohe Punktzahl erzielen, da viele Wörter übereinstimmen.

Anwendung von ROUGE

ROUGE wird oft in der Textzusammenfassung eingesetzt. Angenommen, wir haben einen Artikel über Umweltschutz und möchten eine Zusammenfassung erstellen:

  • Referenz-Zusammenfassung: “Umweltschutz ist wichtig für die Zukunft.”
  • Generierte Zusammenfassung: “Schutz der Umwelt ist entscheidend für die Zukunft.”

Hier könnte ROUGE die Anzahl der übereinstimmenden Wörter und Phrasen zählen, um die Qualität der Zusammenfassung zu bewerten.

Vor- und Nachteile

Vorteile

  • Automatisierung: Beide Metriken ermöglichen eine schnelle und automatisierte Bewertung von Texten.
  • Vergleichbarkeit: Sie bieten eine standardisierte Methode zur Bewertung von Übersetzungen und Zusammenfassungen, die leicht zwischen verschiedenen Modellen verglichen werden kann.
  • Einfachheit: Die Berechnung ist relativ einfach und erfordert keine tiefen linguistischen Kenntnisse.

Nachteile

  • Oberflächliche Bewertung: Beide Metriken berücksichtigen nicht die semantische Bedeutung des Textes; sie messen nur die Wortübereinstimmung.
  • Brevity Penalty: Insbesondere bei BLEU kann die Bestrafung für kurze Übersetzungen zu ungerechten Bewertungen führen.
  • Kontextverlust: Die Metriken ignorieren den Kontext und die Kohärenz des Textes, was zu irreführenden Ergebnissen führen kann.

Historischer Kontext

BLEU wurde 2002 von Papineni et al. eingeführt und hat sich schnell als Standard zur Bewertung maschineller Übersetzungen etabliert. ROUGE wurde 2004 von Lin entwickelt und fand Anwendung in der automatischen Textzusammenfassung. Beide Metriken haben die Forschung im Bereich der natürlichen Sprachverarbeitung maßgeblich beeinflusst und sind nach wie vor weit verbreitet, obwohl moderne Ansätze wie BERTScore und LLM-basierte Bewertungen zunehmend an Bedeutung gewinnen.

BLEU fragt: 'Wie viele Wörter im generierten Text kommen auch in der Referenz vor?' (Precision). ROUGE fragt: 'Wie viele Wörter der Referenz wurden im generierten Text abgedeckt?' (Recall).

BLEU: Misst N-Gram Precision – Standard für maschinelle Übersetzung

ROUGE: Misst N-Gram Recall – Standard für Textzusammenfassung

Beide korrelieren nur mäßig mit menschlicher Bewertung – zunehmend durch LLM-as-Judge ersetzt

Maschinelle Übersetzung

BLEU-Score zum Vergleich von Übersetzungssystemen

Textzusammenfassung

ROUGE-Score zum Bewerten automatischer Zusammenfassungen

RAG-Evaluation

ROUGE zur Messung ob die Antwort die relevanten Informationen enthält

Warum werden BLEU und ROUGE kritisiert?

Sie messen Wortüberlappung, nicht Bedeutung. 'Der Hund jagt die Katze' und 'Die Katze jagt den Hund' haben hohe Überlappung aber verschiedene Bedeutung. LLM-basierte Evaluation (GPT-5 als Richter) wird zunehmend bevorzugt.

Wie wird die BLEU-Score berechnet?

Die BLEU-Score wird berechnet, indem die n-Gramme der generierten Texte mit denen der Referenztexte verglichen werden. Die Punktzahl berücksichtigt sowohl die Präzision als auch eine Strafung für kürzere Übersetzungen, um sicherzustellen, dass die Qualität der Übersetzung hoch ist.

Wann sollte man ROUGE anstelle von BLEU verwenden?

ROUGE sollte verwendet werden, wenn es darum geht, die Qualität von Textzusammenfassungen zu bewerten, da es den Recall berücksichtigt. Im Gegensatz dazu ist BLEU besser für Übersetzungen geeignet, da es die Präzision in den Fokus stellt.

Dein persönliches Share-Bild für Instagram – 1080×1080px, bereit zum Posten.