<EbeneX/>
Praxis Daten · Updated 3. März 2026

A/B Testing

Definition

Eine Methode zum Vergleich zweier Varianten (A und B) durch zufällige Aufteilung der Nutzer – der Goldstandard für datengetriebene Entscheidungen.

Einsteiger 3 Min. Lesezeit EN: A/B Testing

Einfach erklärt

A/B Testing ist der Goldstandard für datengetriebene Entscheidungen. Statt zu raten welche Version besser ist, lässt man echte Nutzer entscheiden – ohne dass sie es merken.

Wie funktioniert es?

Nutzer → [Zufällig aufteilen]
          ├→ 50% sehen Version A (alt)
          └→ 50% sehen Version B (neu)
          
Nach 2 Wochen: Version B hat 12% mehr Conversions → B gewinnt

Warum ist das wichtig für KI?

  • Modell-Vergleich: Neues ML-Modell vs. altes im Produktivbetrieb testen
  • Prompt-Optimierung: Verschiedene System Prompts gegeneinander testen
  • RAG-Tuning: Verschiedene Chunking-Strategien vergleichen

Wichtig: Der Test muss lange genug laufen, bis das Ergebnis statistisch signifikant ist – sonst könnte der Unterschied Zufall sein.

Technischer Deep Dive

Ablauf

  1. Hypothese: “Neues Modell liefert bessere Empfehlungen”
  2. Metriken definieren: Click-Through-Rate, Conversion, Retention
  3. Randomisierung: Nutzer zufällig auf A/B aufteilen
  4. Daten sammeln: Ausreichend lange laufen lassen
  5. Analyse: Statistische Signifikanz prüfen (p-Wert < 0.05)
  6. Entscheidung: Gewinner ausrollen oder iterieren

A/B Testing für ML-Modelle

  • Shadow Mode: Neues Modell läuft parallel, Ergebnisse werden verglichen aber nicht gezeigt
  • Canary Release: Neues Modell für 5% der Nutzer, bei Erfolg schrittweise hochfahren
  • Interleaving: Ergebnisse beider Modelle mischen und Nutzer-Präferenz messen

Vor- und Nachteile von A/B Testing

Vorteile

  • Datengetrieben: Entscheidungen basieren auf realen Nutzerinteraktionen und nicht auf Annahmen.
  • Einfache Implementierung: Viele Tools und Plattformen unterstützen A/B Testing, was die Durchführung erleichtert.
  • Klarheit: Klare Ergebnisse helfen, den Erfolg von Änderungen zu bewerten und zu kommunizieren.

Nachteile

  • Zeitaufwendig: Um signifikante Ergebnisse zu erzielen, muss das Testen oft über längere Zeiträume erfolgen.
  • Falsche Schlussfolgerungen: Bei unzureichender Nutzerzahl oder kurzer Testdauer können Ergebnisse irreführend sein.
  • Komplexität bei mehreren Variablen: Bei Tests mit mehr als zwei Varianten kann die Analyse schnell unübersichtlich werden.

Praxisbeispiele

  1. E-Commerce: Ein Online-Shop testet zwei verschiedene Layouts seiner Produktseite. Version A zeigt große Bilder, während Version B kleinere Bilder mit mehr Text zeigt. Nach zwei Wochen zeigt Version B eine höhere Conversion-Rate, was zu einer Umstellung auf das neue Layout führt.

  2. E-Mail-Marketing: Ein Unternehmen sendet zwei verschiedene Betreffzeilen an seine Abonnenten. Version A lautet “Sonderangebot nur für kurze Zeit!”, während Version B “Entdecken Sie unsere neuesten Produkte”. Die Variante mit der höheren Öffnungsrate wird für zukünftige Kampagnen übernommen.

Code-Snippet für A/B Testing

Hier ein einfaches Beispiel in Python, um eine A/B-Testanalyse durchzuführen:

import numpy as np
import scipy.stats as stats

# Beispiel-Daten: Conversion-Raten für A und B
conversions_A = 120  # Anzahl der Conversions in Gruppe A
conversions_B = 135  # Anzahl der Conversions in Gruppe B
total_A = 1000       # Gesamtzahl der Nutzer in Gruppe A
total_B = 1000       # Gesamtzahl der Nutzer in Gruppe B

# Berechnung der Conversion-Raten
rate_A = conversions_A / total_A
rate_B = conversions_B / total_B

# Durchführung des Chi-Quadrat-Tests
chi2, p_value = stats.chi2_contingency([[conversions_A, total_A - conversions_A],
                                         [conversions_B, total_B - conversions_B]])

# Ergebnis ausgeben
if p_value < 0.05:
    print("Signifikanter Unterschied zwischen A und B (p < 0.05)")
else:
    print("Kein signifikanter Unterschied zwischen A und B (p >= 0.05)")

Dieses Snippet zeigt, wie man die Conversion-Raten berechnet und einen statistischen Test durchführt, um die Signifikanz der Ergebnisse zu prüfen.

A/B Testing ist wie ein Blindtest bei Getränken: Eine Gruppe bekommt Variante A, die andere Variante B. Am Ende zählt man, welche besser ankommt – ohne Vorurteile.

Randomisierte Zuweisung: Nutzer werden zufällig auf Varianten aufgeteilt

Statistische Signifikanz: Ergebnisse müssen über Zufall hinausgehen

Goldstandard für Produkt-Entscheidungen bei Google, Netflix, Amazon

ML-Modell-Vergleich

Neues Modell vs. altes Modell im Produktivbetrieb vergleichen

Prompt-Optimierung

Verschiedene System Prompts gegeneinander testen

UI/UX-Optimierung

Verschiedene Designs, Texte oder Layouts vergleichen

RAG-Pipeline

Verschiedene Chunking-Strategien oder Retrieval-Methoden vergleichen

Wie lange muss ein A/B Test laufen?

Bis statistische Signifikanz erreicht ist – typisch 1-4 Wochen je nach Traffic. Zu früh stoppen führt zu falschen Schlüssen.

Was ist der Unterschied zu Multivariate Testing?

A/B testet eine Variable (A vs. B). Multivariate testet mehrere Variablen gleichzeitig (Titel × Bild × Button). Multivariate braucht deutlich mehr Traffic.

Wie lange sollte ein A/B-Test idealerweise laufen?

Die Dauer eines A/B-Tests hängt von der Anzahl der Nutzer und dem gewünschten Signifikanzniveau ab. In der Regel sollte ein Test mindestens eine Woche laufen, um saisonale Schwankungen zu vermeiden und genügend Daten zu sammeln.

Was sind häufige Fehler, die bei A/B-Tests gemacht werden?

Ein häufiger Fehler ist, den Test vorzeitig abzubrechen, bevor genügend Daten gesammelt wurden. Auch das Testen von zu vielen Variablen gleichzeitig kann die Ergebnisse verwässern und zu falschen Schlussfolgerungen führen.

Dein persönliches Share-Bild für Instagram – 1080×1080px, bereit zum Posten.