Likelihood: Wie wahrscheinlich sind die Daten gegeben das Modell?

ERKLÄRUNG

Einfach erklärt

Likelihood misst, wie gut ein Modell die beobachteten Daten erklärt.

Probability: Gegeben Modell, wie wahrscheinlich sind Daten?
             P(Daten | Modell) → Vorhersage

Likelihood:  Gegeben Daten, wie plausibel ist das Modell?
             L(Modell | Daten) → Schätzung

Beispiel: Münzwurf

Beobachtung: 7 Kopf, 3 Zahl

Likelihood für p=0.5 (faire Münze):
L(0.5) = 0.5^7 × 0.5^3 = 0.00098

Likelihood für p=0.7 (unfaire Münze):
L(0.7) = 0.7^7 × 0.3^3 = 0.0022

→ p=0.7 hat höhere Likelihood, erklärt Daten besser

Technischer Deep Dive

Maximum Likelihood Estimation

import numpy as np
from scipy.optimize import minimize

def negative_log_likelihood(theta, data):
    # Bernoulli Likelihood
    p = theta[0]
    successes = data.sum()
    failures = len(data) - successes
    
    # Log-Likelihood (negativ für Minimierung)
    ll = successes * np.log(p) + failures * np.log(1-p)
    return -ll

# MLE finden
data = np.array([1,1,1,1,1,1,1,0,0,0])  # 7 Erfolge, 3 Misserfolge
result = minimize(negative_log_likelihood, x0=[0.5], args=(data,), 
                  bounds=[(0.01, 0.99)])
print(f"MLE: p = {result.x[0]:.2f}")  # 0.70

Log-Likelihood

# Produkt → numerisch instabil bei vielen Daten
likelihood = np.prod([p**x * (1-p)**(1-x) for x in data])

# Log-Likelihood → numerisch stabil
log_likelihood = np.sum([x*np.log(p) + (1-x)*np.log(1-p) for x in data])

ANALOGIE

Likelihood fragt: 'Wenn meine Theorie stimmt, wie wahrscheinlich wären dann diese Beobachtungen?' Es ist wie ein Detektiv, der prüft, ob die Beweise zur Theorie passen.

WICHTIGSTE PUNKTE

L(θ|x) = P(x|θ) – Daten gegeben Parameter

Nicht dasselbe wie Wahrscheinlichkeit!

Maximum Likelihood: Finde θ, das L maximiert

ANWENDUNGSFÄLLE

Maximum Likelihood Estimation

Parameter schätzen, die Daten am besten erklären

Modellvergleich

Welches Modell erklärt Daten besser?

Bayesian Inference

Likelihood × Prior = Posterior

HÄUFIGE FRAGEN

Likelihood vs. Probability?

Probability: P(Daten|Parameter) summiert zu 1 über Daten. Likelihood: L(Parameter|Daten) summiert NICHT zu 1 über Parameter. Gleiche Formel, andere Perspektive.

Warum Log-Likelihood?

Produkte werden zu Summen (numerisch stabiler). Maximierung bleibt gleich (log ist monoton). Standard in ML.

VERWANDTE BEGRIFFE

Mathematik Grundlagen

Bayes' Theorem

Die mathematische Grundlage für probabilistisches Denken – wie wir Überzeugungen basierend auf neuen Beweisen aktualisieren. Fundament für ML und Statistik.

Mathematik Grundlagen

Prior und Posterior

Die zwei Seiten des Bayesian Learning – Prior ist das Vorwissen vor den Daten, Posterior ist die aktualisierte Überzeugung nach den Daten.

Grundlagen

Loss Function

Eine mathematische Funktion, die misst, wie weit die Vorhersage eines Modells von der tatsächlichen Antwort entfernt ist – das zentrale Optimierungsziel beim Training.