Data Catalog: Daten finden und verstehen

ERKLÄRUNG

Einfach erklärt

Ein Data Catalog ist das Inhaltsverzeichnis deiner Daten – was gibt es, wo ist es, was bedeutet es.

Typische Inhalte:

Information	Beispiel
Name	customer_orders
Beschreibung	Alle Kundenbestellungen seit 2020
Schema	order_id, customer_id, total, date
Owner	Data Team
Lineage	Kommt aus Shopify → ETL → Warehouse
Qualität	99.5% Vollständigkeit
Tags	PII, Finance, Daily

Technischer Deep Dive

Tools

Tool	Typ
DataHub	Open Source (LinkedIn)
Amundsen	Open Source (Lyft)
Atlan	Commercial
Alation	Commercial
AWS Glue Catalog	Cloud-native

DataHub Beispiel

# dataset.yaml
- urn: urn:li:dataset:(urn:li:dataPlatform:snowflake,orders,PROD)
  aspects:
    - datasetProperties:
        name: orders
        description: Customer order data
        tags:
          - PII
          - Finance
    - schemaMetadata:
        fields:
          - fieldPath: order_id
            type: NUMBER
          - fieldPath: customer_email
            type: STRING
            tags: [PII]

ANALOGIE

Ein Data Catalog ist wie ein Bibliothekskatalog: Du findest nicht nur, welche Bücher (Daten) es gibt, sondern auch wo sie stehen, worum es geht und wer sie zuletzt gelesen hat.

WICHTIGSTE PUNKTE

Zentrale Übersicht aller Datenquellen

Metadaten: Schema, Owner, Qualität, Lineage

Suchbar und navigierbar für Data Discovery

ANWENDUNGSFÄLLE

Data Discovery

Welche Daten haben wir? Wo sind sie?

Onboarding

Neue Mitarbeiter verstehen Datenlandschaft

Sicherheit

Wo sind personenbezogene Daten?

HÄUFIGE FRAGEN

Data Catalog vs. Data Dictionary?

Dictionary: Technische Definitionen (Spalten, Typen). Catalog: Breiter – auch Business-Kontext, Lineage, Nutzung, Qualität.

Wie halte ich den Catalog aktuell?

Automatisierung! Crawler scannen Datenquellen, extrahieren Metadaten. Manuelle Pflege nur für Business-Kontext.

VERWANDTE BEGRIFFE

Daten DevOps

Data Lineage

Die Dokumentation des Datenflusses von der Quelle bis zum Endprodukt – woher kommen Daten, wie werden sie transformiert, wo werden sie verwendet.

Daten

Data Quality

Die Messung und Sicherstellung von Datenqualität anhand von Dimensionen wie Vollständigkeit, Genauigkeit, Konsistenz und Aktualität.

Daten Praxis

Data Governance

Ein Framework aus Richtlinien, Prozessen und Standards zur Verwaltung von Daten – stellt Qualität, Sicherheit, Compliance und Nutzbarkeit von Daten sicher.

Daten DevOps

Feature Store

Eine zentrale Plattform zur Speicherung, Verwaltung und Bereitstellung von ML-Features, die Konsistenz zwischen Training und Produktion sicherstellt.