Dataset
Eine strukturierte Sammlung von Daten, die für das Training, die Evaluation oder das Testen von KI-Modellen verwendet wird.
Der Prozess, aus Rohdaten aussagekräftige Merkmale (Features) zu extrahieren oder zu erstellen, die einem ML-Modell helfen, bessere Vorhersagen zu treffen.
Feature Engineering wandelt Rohdaten in nützliche Merkmale um, die ein ML-Modell besser verarbeiten kann. Oft ist Feature Engineering wichtiger als die Wahl des Algorithmus!
Warum ist das wichtig?
Ein Modell kann nur lernen, was in den Daten steckt. Gute Features machen versteckte Muster sichtbar und können den Unterschied zwischen einem mittelmäßigen und einem exzellenten Modell ausmachen.
Beispiel: Aus einem Datumsstempel “2026-02-17 14:30:00” kannst du extrahieren:
Bei Deep Learning weniger nötig: Neuronale Netze lernen Features automatisch aus Rohdaten. Aber bei tabellarischen Daten oder wenig Trainingsdaten hilft Feature Engineering auch hier.
Tools wie Featuretools generieren automatisch Features aus relationalen Daten durch:
In der Kreditrisikoanalyse kann Feature Engineering entscheidend sein. Aus den Rohdaten eines Antragstellers, wie Einkommen, Beschäftigungsdauer und Kreditgeschichte, können Features wie:
Im E-Commerce können aus den Transaktionsdaten Features wie:
Feature Engineering hat sich parallel zur Entwicklung von Machine Learning und Data Science entwickelt. In den frühen Tagen der Datenanalyse lag der Fokus oft auf der Datenbereinigung und -vorbereitung. Mit der zunehmenden Komplexität von ML-Algorithmen und der Verfügbarkeit großer Datenmengen wurde die Bedeutung von Features erkannt. In den letzten Jahren haben sich automatisierte Techniken und Tools etabliert, die den Prozess erleichtern und beschleunigen, was zu einem verstärkten Einsatz von Feature Engineering in der Industrie geführt hat.
Feature Engineering ist wie die Vorbereitung von Zutaten beim Kochen: Statt dem Koch (Modell) eine ganze Kartoffel zu geben, schneidest du sie in Würfel, schälst sie und würzt sie – so kann er ein besseres Gericht daraus machen.
Transformation von Rohdaten in informative Merkmale für ML-Modelle
Oft entscheidender für die Modellqualität als die Wahl des Algorithmus
Bei Deep Learning weniger nötig, da das Modell Features selbst lernt
Tabellarische Daten
Aus Zeitstempeln Features wie Wochentag, Stunde, Saison extrahieren
Textanalyse
TF-IDF, Wortanzahl, Sentiment-Score als Features berechnen
Marketing
Aus Kaufhistorie Features wie Durchschnittsbestellwert, Kauffrequenz ableiten
Weniger als bei klassischem ML. Deep Learning lernt Features automatisch aus Rohdaten. Aber gutes Feature Engineering kann auch bei Deep Learning helfen, besonders bei tabellarischen Daten oder wenn wenig Trainingsdaten vorhanden sind.
Skalierung (Normalisierung, Standardisierung), Encoding (One-Hot, Label Encoding für Kategorien), Aggregation (Mittelwert, Summe über Gruppen), Interaktionen (Feature A × Feature B) und zeitbasierte Features.
Effektive Techniken für Feature Engineering umfassen die Erstellung von Interaktionen zwischen Variablen, die Verwendung von Aggregationen und die Transformation von Variablen in geeignete Formate. Domain-Wissen spielt eine entscheidende Rolle bei der Auswahl der richtigen Features.
Die Bedeutung von Features kann durch Techniken wie Feature Importance Scores, Permutation Feature Importance oder SHAP-Werte bewertet werden. Diese Methoden helfen, die Auswirkungen einzelner Features auf die Modellleistung zu quantifizieren.