Data Validation
Automatische Prüfung von Daten auf Korrektheit, Vollständigkeit und Konsistenz – verhindert fehlerhafte Daten in Pipelines und ML-Modellen.
Die Messung und Sicherstellung von Datenqualität anhand von Dimensionen wie Vollständigkeit, Genauigkeit, Konsistenz und Aktualität.
Data Quality misst, wie gut Daten für ihren Zweck geeignet sind.
Die 6 Dimensionen:
| Dimension | Frage | Metrik |
|---|---|---|
| Vollständigkeit | Fehlen Werte? | % Non-Null |
| Genauigkeit | Sind Werte korrekt? | % valide |
| Konsistenz | Stimmen Quellen überein? | % Match |
| Aktualität | Wie alt sind Daten? | Alter in Stunden |
| Einzigartigkeit | Gibt es Duplikate? | % unique |
| Validität | Entsprechen Werte dem Format? | % valid format |
def calculate_dq_score(df):
scores = {
'completeness': 1 - df.isnull().mean().mean(),
'uniqueness': df.duplicated().mean(),
'validity': validate_formats(df)
}
return sum(scores.values()) / len(scores)
# Great Expectations für automatisches Monitoring
checkpoint = gx.Checkpoint(
name="daily_orders_check",
data_context=context,
validations=[
{"batch_request": batch, "expectation_suite_name": "orders"}
]
)
# In Airflow/Dagster einbinden
results = checkpoint.run()
if not results.success:
alert_data_team(results) Data Quality ist wie Lebensmittelqualität: Frisch (aktuell), vollständig (alle Zutaten), korrekt (richtige Zutaten), konsistent (immer gleich gut).
Dimensionen: Vollständigkeit, Genauigkeit, Konsistenz, Aktualität
Messen mit Metriken und Monitoring
Garbage In, Garbage Out – besonders für ML
ML-Training
Schlechte Daten = schlechte Modelle
Daten
Vertrauen in Dashboards und Reports
Sicherheit
Korrekte Daten für Regulatoren
Metriken pro Dimension: % Nulls (Vollständigkeit), % valide Werte (Genauigkeit), % konsistent über Quellen, Alter der Daten (Aktualität).
Data Owner für ihre Daten, Data Engineers für Pipelines, Data Quality Team für Standards und Monitoring.