SMOTE: Imbalanced Data durch Oversampling ausgleichen

ERKLÄRUNG

Einfach erklärt

SMOTE erzeugt synthetische Datenpunkte für die Minderheitsklasse durch Interpolation.

Vorher (imbalanced):
Klasse 0: ●●●●●●●●●● (1000)
Klasse 1: ●● (20)

Nach SMOTE:
Klasse 0: ●●●●●●●●●● (1000)
Klasse 1: ●●●●●●●●●● (1000, davon 980 synthetisch)

Technischer Deep Dive

Algorithmus

from imblearn.over_sampling import SMOTE

smote = SMOTE(random_state=42)
X_resampled, y_resampled = smote.fit_resample(X, y)

# So funktioniert es:
# 1. Wähle Sample aus Minderheitsklasse
# 2. Finde k nächste Nachbarn (gleiche Klasse)
# 3. Wähle zufällig einen Nachbarn
# 4. Erzeuge neuen Punkt auf Linie zwischen beiden

Varianten

Variante	Beschreibung
SMOTE	Standard-Interpolation
SMOTE-NC	Für kategorische Features
Borderline-SMOTE	Fokus auf Grenzfälle
ADASYN	Adaptiv, mehr Samples in schwierigen Regionen

ANALOGIE

SMOTE ist wie das Klonen von seltenen Pflanzen: Statt nur die wenigen Exemplare zu nutzen, erzeugst du ähnliche Varianten, um eine ausgewogene Population zu bekommen.

WICHTIGSTE PUNKTE

Erzeugt synthetische Samples für Minderheitsklasse

Interpoliert zwischen existierenden Datenpunkten

Besser als einfaches Duplizieren

ANWENDUNGSFÄLLE

Fraud Detection

Wenige Fraud-Fälle vs. viele normale

Medizinische Diagnose

Seltene Krankheiten erkennen

Churn Prediction

Wenige Churner vs. viele Bleibende

HÄUFIGE FRAGEN

SMOTE vs. Undersampling?

SMOTE: Mehr Daten für Minderheit. Undersampling: Weniger Daten für Mehrheit. SMOTE verliert keine Information, Undersampling ist schneller.

Wann SMOTE nicht nutzen?

Bei sehr kleiner Minderheit (zu wenig für Interpolation), bei hochdimensionalen Daten (Curse of Dimensionality), bei Zeitreihen.

VERWANDTE BEGRIFFE

Daten Grundlagen

Imbalanced Data

Ein häufiges Problem in ML, wenn Klassen im Datensatz sehr ungleich verteilt sind – z.B. 99% normale Transaktionen, 1% Betrug. Erfordert spezielle Techniken.

Grundlagen

Machine Learning (ML)

Ein Teilbereich der KI, bei dem Algorithmen aus Daten lernen und Vorhersagen treffen, ohne explizit programmiert zu werden.