Was sind Halluzinationen? Falsche KI-Aussagen erklärt

ERKLÄRUNG

Einfach erklärt

Halluzinationen sind eines der bekanntesten und problematischsten Phänomene bei Large Language Models: Das Modell generiert sachlich falsche Informationen mit hoher Konfidenz – als wären sie wahr. Es erfindet Zitate, Quellen, Fakten, Personen oder Ereignisse, die nicht existieren. Das Tückische: Halluzinationen klingen oft genauso überzeugend wie korrekte Antworten. LLMs “wissen” nicht, was sie nicht wissen – sie generieren immer den wahrscheinlichsten nächsten Token, unabhängig davon, ob die Information korrekt ist.

Halluzinationen sind eines der größten Probleme aktueller KI-Sprachmodelle. Das Modell generiert Antworten, die grammatisch korrekt und überzeugend klingen, aber inhaltlich falsch sind.

Typische Beispiele für Halluzinationen:

Erfundene Fakten: “Die Berliner Mauer wurde 1958 gebaut” (richtig: 1961)
Erfundene Quellen: “Laut einer Studie der Harvard University von 2023…” (Studie existiert nicht)
Falsche Zusammenhänge: Korrekte Einzelfakten werden falsch kombiniert
Erfundene Personen: Zitate von nicht existierenden Experten

Warum passiert das?

LLMs sind Textgeneratoren, keine Wissensdatenbanken. Sie sagen immer das wahrscheinlichste nächste Wort vorher. Wenn sie keine sichere Antwort haben, generieren sie trotzdem eine – weil sie darauf trainiert wurden, immer zu antworten.

Was hilft dagegen?

Strategie	Wirksamkeit	Aufwand
RAG (externe Quellen)	Hoch	Mittel
Niedrige Temperature	Mittel	Gering
”Sage ‘Ich weiß es nicht‘“	Mittel	Gering
Quellenangaben fordern	Mittel	Gering
Menschliche Überprüfung	Sehr hoch	Hoch
Fact-Checking-Tools	Mittel-Hoch	Mittel

Technischer Deep Dive

Arten von Halluzinationen

1. Intrinsische Halluzinationen:

Widerspruch zu den bereitgestellten Quelldaten
Beispiel: Ein Zusammenfassungsmodell fügt Informationen hinzu, die nicht im Originaltext stehen
Messbar durch Vergleich mit Quelldokumenten

2. Extrinsische Halluzinationen:

Informationen, die weder bestätigt noch widerlegt werden können
Beispiel: Erfundene Statistiken oder Zitate
Schwerer zu erkennen, da keine Referenz vorhanden

3. Faithfulness-Halluzinationen:

In RAG-Systemen: Das Modell ignoriert den bereitgestellten Kontext
Generiert Antworten aus dem eigenen Training statt aus den Dokumenten
Messbar durch Groundedness-Metriken

Ursachen

Statistische Natur:

LLMs maximieren P(next_token | context)
Kein internes Konzept von Wahrheit oder Fakten
Plausibilität ≠ Korrektheit

Trainingsdaten:

Widersprüchliche Informationen in den Trainingsdaten
Veraltete Informationen
Bias und Fehler in den Quelldaten

Decoding-Strategien:

Hohe Temperature erhöht Kreativität, aber auch Halluzinationsrate
Top-p/Top-k Sampling kann unwahrscheinliche, aber falsche Tokens wählen
Beam Search reduziert Halluzinationen, aber auch Diversität

Erkennung und Messung

Automatische Metriken:

Groundedness Score: Wie gut basiert die Antwort auf den bereitgestellten Quellen?
Faithfulness: Enthält die Antwort nur Informationen aus dem Kontext?
Factual Consistency: Stimmen die Fakten mit bekannten Quellen überein?

Erkennungsmethoden:

NLI-basiert: Natural Language Inference prüft, ob die Antwort vom Kontext gestützt wird
Self-Consistency: Mehrfach generieren und Widersprüche finden
Retrieval-basiert: Generierte Fakten gegen eine Wissensdatenbank prüfen
LLM-as-Judge: Ein zweites LLM bewertet die Korrektheit

Gegenmaßnahmen

Auf Modell-Ebene:

RLHF-Training mit Fokus auf Ehrlichkeit
Constitutional AI: Modell lernt, Unsicherheit auszudrücken
Calibration: Confidence Scores, die tatsächliche Korrektheit widerspiegeln

Auf System-Ebene:

RAG: Antworten auf verifizierte Quellen stützen
Guardrails: Output-Validierung und Faktenprüfung
Chain-of-Verification: Modell überprüft seine eigene Antwort
Citation Generation: Quellenangaben erzwingen und verifizieren

Auf Prompt-Ebene:

“Antworte nur basierend auf den bereitgestellten Informationen”
“Sage ‘Ich bin mir nicht sicher’, wenn du die Antwort nicht kennst”
Niedrige Temperature (0.0-0.3) für faktische Aufgaben
Strukturierte Ausgabeformate mit Quellenfeldern

Best Practices für Produktion

Halluzinationsrate als KPI tracken
Automatische Groundedness-Checks in die Pipeline einbauen
Menschliche Überprüfung für kritische Anwendungen
Nutzer über mögliche Ungenauigkeiten informieren
Feedback-Loop für kontinuierliche Verbesserung

ANALOGIE

KI-Halluzinationen sind wie ein selbstbewusster Gesprächspartner, der lieber eine überzeugende Antwort erfindet, als zuzugeben, dass er etwas nicht weiß – die Antwort klingt richtig, ist aber frei erfunden.

WICHTIGSTE PUNKTE

LLMs generieren manchmal falsche Fakten, erfundene Quellen oder inkorrekte Zusammenhänge

Ursache ist die statistische Natur der Textgenerierung – das Modell 'weiß' nicht, was wahr ist

Lösungsansätze: RAG, Fact-Checking, Confidence Scores und menschliche Überprüfung

ANWENDUNGSFÄLLE

Faktenprüfung

Automatische Erkennung von Halluzinationen in KI-generierten Texten

Medizinische KI

Kritische Überprüfung von KI-Diagnosen und -Empfehlungen auf Korrektheit

Rechtsberatung

Validierung von KI-generierten juristischen Informationen gegen echte Gesetzestexte

Content-Erstellung

Qualitätssicherung bei KI-generierten Artikeln und Berichten

HÄUFIGE FRAGEN

Warum halluzinieren LLMs?

LLMs sind statistische Modelle, die das wahrscheinlichste nächste Wort vorhersagen. Sie haben kein Konzept von 'Wahrheit' – sie generieren plausibel klingende Texte basierend auf Mustern in ihren Trainingsdaten. Wenn die Trainingsdaten keine klare Antwort enthalten, füllt das Modell die Lücke mit plausiblen, aber erfundenen Informationen.

Kann man Halluzinationen komplett verhindern?

Nein, nicht vollständig. Aber sie lassen sich stark reduzieren durch RAG (Zugriff auf verifizierte Quellen), niedrigere Temperature-Einstellungen, Aufforderung zur Quellenangabe und menschliche Überprüfung. Eine Kombination mehrerer Ansätze ist am effektivsten.

Sind Halluzinationen bei allen LLMs gleich häufig?

Nein. Neuere und größere Modelle halluzinieren tendenziell weniger. Modelle, die mit RLHF trainiert wurden, sind besser darin, Unsicherheit auszudrücken. Die Häufigkeit hängt auch vom Thema ab – bei Nischenthemen halluzinieren Modelle häufiger.

Wie erkenne ich eine Halluzination?

Warnsignale: Sehr spezifische Zahlen oder Daten ohne Quelle, erfundene Zitate oder Paper, Informationen die 'zu perfekt' zum Kontext passen. Am sichersten: Fakten immer mit unabhängigen Quellen verifizieren.

TOOLS & RESSOURCEN

Vectara HHEM

Open-Source-Modell zur Erkennung von Halluzinationen

Guardrails AI

Framework für Output-Validierung und Halluzinationserkennung

TruLens

Evaluation-Framework für LLM-Anwendungen mit Groundedness-Metriken

Langfuse

Observability-Plattform für LLM-Anwendungen mit Tracing und Evaluation

VERWANDTE BEGRIFFE

LLM Grundlagen

Large Language Model (LLM)

Ein KI-Modell, das auf riesigen Textmengen trainiert wurde und menschenähnliche Sprache verstehen und generieren kann.

LLM Daten

RAG (Retrieval Augmented Generation)

Eine Technik, die Large Language Models mit externen Wissensdatenbanken verbindet, um präzisere und faktenbasierte Antworten zu generieren.

LLM Praxis

Prompt Engineering

Die Kunst und Technik, Anweisungen für KI-Sprachmodelle so zu formulieren, dass sie optimale und zielgerichtete Ergebnisse liefern.

LLM Praxis

Fine-Tuning

Das gezielte Nachtrainieren eines vortrainierten KI-Modells auf spezifische Daten oder Aufgaben, um es für einen bestimmten Einsatzzweck zu optimieren.

Grundlagen LLM

Tokens

Die kleinsten Texteinheiten, in die ein Sprachmodell Text zerlegt – Wörter, Wortteile oder einzelne Zeichen, die das Modell verarbeiten kann.