Bayes' Theorem
Die mathematische Grundlage für probabilistisches Denken – wie wir Überzeugungen basierend auf neuen Beweisen aktualisieren. Fundament für ML und Statistik.
Die Wahrscheinlichkeit der beobachteten Daten unter einem bestimmten Modell – zentral für Maximum Likelihood Estimation und Bayesian Inference.
Likelihood misst, wie gut ein Modell die beobachteten Daten erklärt.
Probability: Gegeben Modell, wie wahrscheinlich sind Daten?
P(Daten | Modell) → Vorhersage
Likelihood: Gegeben Daten, wie plausibel ist das Modell?
L(Modell | Daten) → Schätzung
Beispiel: Münzwurf
Beobachtung: 7 Kopf, 3 Zahl
Likelihood für p=0.5 (faire Münze):
L(0.5) = 0.5^7 × 0.5^3 = 0.00098
Likelihood für p=0.7 (unfaire Münze):
L(0.7) = 0.7^7 × 0.3^3 = 0.0022
→ p=0.7 hat höhere Likelihood, erklärt Daten besser
import numpy as np
from scipy.optimize import minimize
def negative_log_likelihood(theta, data):
# Bernoulli Likelihood
p = theta[0]
successes = data.sum()
failures = len(data) - successes
# Log-Likelihood (negativ für Minimierung)
ll = successes * np.log(p) + failures * np.log(1-p)
return -ll
# MLE finden
data = np.array([1,1,1,1,1,1,1,0,0,0]) # 7 Erfolge, 3 Misserfolge
result = minimize(negative_log_likelihood, x0=[0.5], args=(data,),
bounds=[(0.01, 0.99)])
print(f"MLE: p = {result.x[0]:.2f}") # 0.70
# Produkt → numerisch instabil bei vielen Daten
likelihood = np.prod([p**x * (1-p)**(1-x) for x in data])
# Log-Likelihood → numerisch stabil
log_likelihood = np.sum([x*np.log(p) + (1-x)*np.log(1-p) for x in data]) Likelihood fragt: 'Wenn meine Theorie stimmt, wie wahrscheinlich wären dann diese Beobachtungen?' Es ist wie ein Detektiv, der prüft, ob die Beweise zur Theorie passen.
L(θ|x) = P(x|θ) – Daten gegeben Parameter
Nicht dasselbe wie Wahrscheinlichkeit!
Maximum Likelihood: Finde θ, das L maximiert
Maximum Likelihood Estimation
Parameter schätzen, die Daten am besten erklären
Modellvergleich
Welches Modell erklärt Daten besser?
Bayesian Inference
Likelihood × Prior = Posterior
Probability: P(Daten|Parameter) summiert zu 1 über Daten. Likelihood: L(Parameter|Daten) summiert NICHT zu 1 über Parameter. Gleiche Formel, andere Perspektive.
Produkte werden zu Summen (numerisch stabiler). Maximierung bleibt gleich (log ist monoton). Standard in ML.