<EbeneX/>
DevOps Praxis · Updated 3. März 2026

Experiment Tracking

Definition

Die systematische Dokumentation von ML-Experimenten – Hyperparameter, Metriken, Code-Versionen und Artefakte, um Ergebnisse reproduzierbar und vergleichbar zu machen.

Fortgeschritten 2 Min. Lesezeit EN: Experiment Tracking

Einfach erklärt

Experiment Tracking ist die systematische Dokumentation aller ML-Experimente. Statt “ich glaube, letzte Woche hat Learning Rate 0.001 besser funktioniert” hast du harte Daten.

Was wird getrackt?

Experiment: fraud-detection-v3
├── Hyperparameter: lr=0.001, batch_size=32, epochs=50
├── Metriken: accuracy=0.94, f1=0.87, loss=0.23
├── Daten: dataset-v2.3 (sha256: abc123...)
├── Code: commit 7f3a2b1
├── Artefakte: model.pkl, confusion_matrix.png
└── Meta: GPU=A100, runtime=2h34m, user=alice

Warum ist das wichtig?

  • “Welche Hyperparameter hatten die beste Performance?”
  • “Warum ist das neue Modell schlechter?”
  • “Kann ich das Experiment von vor 3 Monaten reproduzieren?”

Technischer Deep Dive

MLflow Beispiel

import mlflow

mlflow.set_experiment("fraud-detection")

with mlflow.start_run():
    # Hyperparameter loggen
    mlflow.log_param("learning_rate", 0.001)
    mlflow.log_param("batch_size", 32)
    
    # Training...
    model = train_model(...)
    
    # Metriken loggen
    mlflow.log_metric("accuracy", 0.94)
    mlflow.log_metric("f1_score", 0.87)
    
    # Artefakte speichern
    mlflow.log_artifact("confusion_matrix.png")
    mlflow.sklearn.log_model(model, "model")

Weights & Biases Beispiel

import wandb

wandb.init(project="fraud-detection")
wandb.config = {"learning_rate": 0.001, "batch_size": 32}

for epoch in range(epochs):
    # Training...
    wandb.log({"loss": loss, "accuracy": acc})

wandb.finish()

Best Practices

PracticeBeschreibung
Alles trackenAuch fehlgeschlagene Experimente
AutomatisierungTracking in Training-Pipeline integrieren
Naming ConventionKonsistente Namen für Experimente
Tags nutzenKategorisierung für spätere Suche
Artefakte speichernModelle, Plots, Configs

Experiment Tracking ist wie ein Laborjournal: Jedes Experiment wird dokumentiert – was wurde versucht, welche Parameter, welche Ergebnisse. So kannst du später nachvollziehen, was funktioniert hat und warum.

Dokumentation aller Hyperparameter, Metriken und Artefakte

Vergleich verschiedener Experimente und Modellversionen

Reproduzierbarkeit: Jedes Experiment kann wiederholt werden

Hyperparameter-Tuning

Verschiedene Konfigurationen vergleichen und beste finden

Team-Kollaboration

Experimente im Team teilen und aufeinander aufbauen

Reproduzierbarkeit

Ergebnisse später exakt reproduzieren können

Was sollte ich tracken?

Mindestens: Hyperparameter, Metriken (Loss, Accuracy, etc.), Daten-Version, Code-Version. Idealerweise auch: Modell-Artefakte, Visualisierungen, Hardware-Info, Laufzeit.

Brauche ich ein Tool oder reicht Git?

Git ist gut für Code, aber schlecht für große Modelle, Metriken-Zeitreihen und Vergleiche. Für ernsthafte ML-Arbeit lohnt sich ein dediziertes Tool.

Wie viele Experimente sollte ich tracken?

Alle. Auch fehlgeschlagene Experimente sind wertvoll – sie zeigen, was nicht funktioniert. Storage ist billig, verlorenes Wissen ist teuer.

Dein persönliches Share-Bild für Instagram – 1080×1080px, bereit zum Posten.