<EbeneX/>
Daten Grundlagen · Updated 11. März 2026

SMOTE

Definition

Eine Technik zur Erzeugung synthetischer Datenpunkte für unterrepräsentierte Klassen – löst das Problem unbalancierter Datensätze im ML.

Fortgeschritten 1 Min. Lesezeit EN: Synthetic Minority Over-sampling Technique

Einfach erklärt

SMOTE erzeugt synthetische Datenpunkte für die Minderheitsklasse durch Interpolation.

Vorher (imbalanced):
Klasse 0: ●●●●●●●●●● (1000)
Klasse 1: ●● (20)

Nach SMOTE:
Klasse 0: ●●●●●●●●●● (1000)
Klasse 1: ●●●●●●●●●● (1000, davon 980 synthetisch)

Technischer Deep Dive

Algorithmus

from imblearn.over_sampling import SMOTE

smote = SMOTE(random_state=42)
X_resampled, y_resampled = smote.fit_resample(X, y)

# So funktioniert es:
# 1. Wähle Sample aus Minderheitsklasse
# 2. Finde k nächste Nachbarn (gleiche Klasse)
# 3. Wähle zufällig einen Nachbarn
# 4. Erzeuge neuen Punkt auf Linie zwischen beiden

Varianten

VarianteBeschreibung
SMOTEStandard-Interpolation
SMOTE-NCFür kategorische Features
Borderline-SMOTEFokus auf Grenzfälle
ADASYNAdaptiv, mehr Samples in schwierigen Regionen

SMOTE ist wie das Klonen von seltenen Pflanzen: Statt nur die wenigen Exemplare zu nutzen, erzeugst du ähnliche Varianten, um eine ausgewogene Population zu bekommen.

Erzeugt synthetische Samples für Minderheitsklasse

Interpoliert zwischen existierenden Datenpunkten

Besser als einfaches Duplizieren

Fraud Detection

Wenige Fraud-Fälle vs. viele normale

Medizinische Diagnose

Seltene Krankheiten erkennen

Churn Prediction

Wenige Churner vs. viele Bleibende

SMOTE vs. Undersampling?

SMOTE: Mehr Daten für Minderheit. Undersampling: Weniger Daten für Mehrheit. SMOTE verliert keine Information, Undersampling ist schneller.

Wann SMOTE nicht nutzen?

Bei sehr kleiner Minderheit (zu wenig für Interpolation), bei hochdimensionalen Daten (Curse of Dimensionality), bei Zeitreihen.

Dein persönliches Share-Bild für Instagram – 1080×1080px, bereit zum Posten.