Benchmark
Standardisierte Tests und Datensätze, mit denen KI-Modelle objektiv verglichen werden – von MMLU für Allgemeinwissen bis HumanEval für Code-Fähigkeiten.
Eine Methode zum Vergleich zweier Varianten (A und B) durch zufällige Aufteilung der Nutzer – der Goldstandard für datengetriebene Entscheidungen.
A/B Testing ist der Goldstandard für datengetriebene Entscheidungen. Statt zu raten welche Version besser ist, lässt man echte Nutzer entscheiden – ohne dass sie es merken.
Wie funktioniert es?
Nutzer → [Zufällig aufteilen]
├→ 50% sehen Version A (alt)
└→ 50% sehen Version B (neu)
Nach 2 Wochen: Version B hat 12% mehr Conversions → B gewinnt
Warum ist das wichtig für KI?
Wichtig: Der Test muss lange genug laufen, bis das Ergebnis statistisch signifikant ist – sonst könnte der Unterschied Zufall sein.
E-Commerce: Ein Online-Shop testet zwei verschiedene Layouts seiner Produktseite. Version A zeigt große Bilder, während Version B kleinere Bilder mit mehr Text zeigt. Nach zwei Wochen zeigt Version B eine höhere Conversion-Rate, was zu einer Umstellung auf das neue Layout führt.
E-Mail-Marketing: Ein Unternehmen sendet zwei verschiedene Betreffzeilen an seine Abonnenten. Version A lautet “Sonderangebot nur für kurze Zeit!”, während Version B “Entdecken Sie unsere neuesten Produkte”. Die Variante mit der höheren Öffnungsrate wird für zukünftige Kampagnen übernommen.
Hier ein einfaches Beispiel in Python, um eine A/B-Testanalyse durchzuführen:
import numpy as np
import scipy.stats as stats
# Beispiel-Daten: Conversion-Raten für A und B
conversions_A = 120 # Anzahl der Conversions in Gruppe A
conversions_B = 135 # Anzahl der Conversions in Gruppe B
total_A = 1000 # Gesamtzahl der Nutzer in Gruppe A
total_B = 1000 # Gesamtzahl der Nutzer in Gruppe B
# Berechnung der Conversion-Raten
rate_A = conversions_A / total_A
rate_B = conversions_B / total_B
# Durchführung des Chi-Quadrat-Tests
chi2, p_value = stats.chi2_contingency([[conversions_A, total_A - conversions_A],
[conversions_B, total_B - conversions_B]])
# Ergebnis ausgeben
if p_value < 0.05:
print("Signifikanter Unterschied zwischen A und B (p < 0.05)")
else:
print("Kein signifikanter Unterschied zwischen A und B (p >= 0.05)")
Dieses Snippet zeigt, wie man die Conversion-Raten berechnet und einen statistischen Test durchführt, um die Signifikanz der Ergebnisse zu prüfen.
A/B Testing ist wie ein Blindtest bei Getränken: Eine Gruppe bekommt Variante A, die andere Variante B. Am Ende zählt man, welche besser ankommt – ohne Vorurteile.
Randomisierte Zuweisung: Nutzer werden zufällig auf Varianten aufgeteilt
Statistische Signifikanz: Ergebnisse müssen über Zufall hinausgehen
Goldstandard für Produkt-Entscheidungen bei Google, Netflix, Amazon
ML-Modell-Vergleich
Neues Modell vs. altes Modell im Produktivbetrieb vergleichen
Prompt-Optimierung
Verschiedene System Prompts gegeneinander testen
UI/UX-Optimierung
Verschiedene Designs, Texte oder Layouts vergleichen
RAG-Pipeline
Verschiedene Chunking-Strategien oder Retrieval-Methoden vergleichen
Bis statistische Signifikanz erreicht ist – typisch 1-4 Wochen je nach Traffic. Zu früh stoppen führt zu falschen Schlüssen.
A/B testet eine Variable (A vs. B). Multivariate testet mehrere Variablen gleichzeitig (Titel × Bild × Button). Multivariate braucht deutlich mehr Traffic.
Die Dauer eines A/B-Tests hängt von der Anzahl der Nutzer und dem gewünschten Signifikanzniveau ab. In der Regel sollte ein Test mindestens eine Woche laufen, um saisonale Schwankungen zu vermeiden und genügend Daten zu sammeln.
Ein häufiger Fehler ist, den Test vorzeitig abzubrechen, bevor genügend Daten gesammelt wurden. Auch das Testen von zu vielen Variablen gleichzeitig kann die Ergebnisse verwässern und zu falschen Schlussfolgerungen führen.