Data Lineage
Die Dokumentation des Datenflusses von der Quelle bis zum Endprodukt – woher kommen Daten, wie werden sie transformiert, wo werden sie verwendet.
Ein zentrales Verzeichnis aller Datenbestände im Unternehmen – mit Metadaten, Beschreibungen und Lineage für bessere Data Discovery.
Ein Data Catalog ist das Inhaltsverzeichnis deiner Daten – was gibt es, wo ist es, was bedeutet es.
Typische Inhalte:
| Information | Beispiel |
|---|---|
| Name | customer_orders |
| Beschreibung | Alle Kundenbestellungen seit 2020 |
| Schema | order_id, customer_id, total, date |
| Owner | Data Team |
| Lineage | Kommt aus Shopify → ETL → Warehouse |
| Qualität | 99.5% Vollständigkeit |
| Tags | PII, Finance, Daily |
| Tool | Typ |
|---|---|
| DataHub | Open Source (LinkedIn) |
| Amundsen | Open Source (Lyft) |
| Atlan | Commercial |
| Alation | Commercial |
| AWS Glue Catalog | Cloud-native |
# dataset.yaml
- urn: urn:li:dataset:(urn:li:dataPlatform:snowflake,orders,PROD)
aspects:
- datasetProperties:
name: orders
description: Customer order data
tags:
- PII
- Finance
- schemaMetadata:
fields:
- fieldPath: order_id
type: NUMBER
- fieldPath: customer_email
type: STRING
tags: [PII] Ein Data Catalog ist wie ein Bibliothekskatalog: Du findest nicht nur, welche Bücher (Daten) es gibt, sondern auch wo sie stehen, worum es geht und wer sie zuletzt gelesen hat.
Zentrale Übersicht aller Datenquellen
Metadaten: Schema, Owner, Qualität, Lineage
Suchbar und navigierbar für Data Discovery
Data Discovery
Welche Daten haben wir? Wo sind sie?
Onboarding
Neue Mitarbeiter verstehen Datenlandschaft
Sicherheit
Wo sind personenbezogene Daten?
Dictionary: Technische Definitionen (Spalten, Typen). Catalog: Breiter – auch Business-Kontext, Lineage, Nutzung, Qualität.
Automatisierung! Crawler scannen Datenquellen, extrahieren Metadaten. Manuelle Pflege nur für Business-Kontext.