Experiment Tracking: ML-Experimente dokumentieren

ERKLÄRUNG

Einfach erklärt

Experiment Tracking ist die systematische Dokumentation aller ML-Experimente. Statt “ich glaube, letzte Woche hat Learning Rate 0.001 besser funktioniert” hast du harte Daten.

Was wird getrackt?

Experiment: fraud-detection-v3
├── Hyperparameter: lr=0.001, batch_size=32, epochs=50
├── Metriken: accuracy=0.94, f1=0.87, loss=0.23
├── Daten: dataset-v2.3 (sha256: abc123...)
├── Code: commit 7f3a2b1
├── Artefakte: model.pkl, confusion_matrix.png
└── Meta: GPU=A100, runtime=2h34m, user=alice

Warum ist das wichtig?

“Welche Hyperparameter hatten die beste Performance?”
“Warum ist das neue Modell schlechter?”
“Kann ich das Experiment von vor 3 Monaten reproduzieren?”

Technischer Deep Dive

MLflow Beispiel

import mlflow

mlflow.set_experiment("fraud-detection")

with mlflow.start_run():
    # Hyperparameter loggen
    mlflow.log_param("learning_rate", 0.001)
    mlflow.log_param("batch_size", 32)
    
    # Training...
    model = train_model(...)
    
    # Metriken loggen
    mlflow.log_metric("accuracy", 0.94)
    mlflow.log_metric("f1_score", 0.87)
    
    # Artefakte speichern
    mlflow.log_artifact("confusion_matrix.png")
    mlflow.sklearn.log_model(model, "model")

Weights & Biases Beispiel

import wandb

wandb.init(project="fraud-detection")
wandb.config = {"learning_rate": 0.001, "batch_size": 32}

for epoch in range(epochs):
    # Training...
    wandb.log({"loss": loss, "accuracy": acc})

wandb.finish()

Best Practices

Practice	Beschreibung
Alles tracken	Auch fehlgeschlagene Experimente
Automatisierung	Tracking in Training-Pipeline integrieren
Naming Convention	Konsistente Namen für Experimente
Tags nutzen	Kategorisierung für spätere Suche
Artefakte speichern	Modelle, Plots, Configs

ANALOGIE

Experiment Tracking ist wie ein Laborjournal: Jedes Experiment wird dokumentiert – was wurde versucht, welche Parameter, welche Ergebnisse. So kannst du später nachvollziehen, was funktioniert hat und warum.

WICHTIGSTE PUNKTE

Dokumentation aller Hyperparameter, Metriken und Artefakte

Vergleich verschiedener Experimente und Modellversionen

Reproduzierbarkeit: Jedes Experiment kann wiederholt werden

ANWENDUNGSFÄLLE

Hyperparameter-Tuning

Verschiedene Konfigurationen vergleichen und beste finden

Team-Kollaboration

Experimente im Team teilen und aufeinander aufbauen

Reproduzierbarkeit

Ergebnisse später exakt reproduzieren können

HÄUFIGE FRAGEN

Was sollte ich tracken?

Mindestens: Hyperparameter, Metriken (Loss, Accuracy, etc.), Daten-Version, Code-Version. Idealerweise auch: Modell-Artefakte, Visualisierungen, Hardware-Info, Laufzeit.

Brauche ich ein Tool oder reicht Git?

Git ist gut für Code, aber schlecht für große Modelle, Metriken-Zeitreihen und Vergleiche. Für ernsthafte ML-Arbeit lohnt sich ein dediziertes Tool.

Wie viele Experimente sollte ich tracken?

Alle. Auch fehlgeschlagene Experimente sind wertvoll – sie zeigen, was nicht funktioniert. Storage ist billig, verlorenes Wissen ist teuer.

TOOLS & RESSOURCEN

MLflow

Open-Source-Plattform für ML-Lifecycle-Management

Weights & Biases

Populäre Plattform für Experiment Tracking und Visualisierung

Neptune.ai

Experiment Tracking mit Fokus auf Kollaboration

VERWANDTE BEGRIFFE

DevOps Praxis

DevOps

Die Praxis, Machine-Learning-Modelle zuverlässig und effizient in Produktion zu bringen und zu betreiben – die Verbindung von ML, DevOps und Data Engineering.

DevOps Praxis

Model Registry

Ein zentrales Repository zur Versionierung, Speicherung und Verwaltung von Machine-Learning-Modellen – mit Metadaten, Lineage und Deployment-Status.

Grundlagen

Hyperparameter

Einstellungen, die vor dem Training eines KI-Modells manuell festgelegt werden und den Trainingsprozess steuern – im Gegensatz zu Parametern, die automatisch gelernt werden.

Grundlagen Praxis

Benchmark

Standardisierte Tests und Datensätze, mit denen KI-Modelle objektiv verglichen werden – von MMLU für Allgemeinwissen bis HumanEval für Code-Fähigkeiten.

Web DevOps

CI/CD (Continuous Integration / Continuous Deployment)

Automatisierte Prozesse, die Code-Änderungen kontinuierlich testen (CI) und in Produktion bringen (CD) – für schnellere und zuverlässigere Software-Releases.