Data Warehouse
Ein zentrales Datenspeichersystem, das strukturierte, aufbereitete Daten aus verschiedenen Quellen für schnelle analytische Abfragen optimiert bereitstellt.
Ein Architekturansatz, bei dem Dateneigentum und -verantwortung dezentralisiert werden – jedes Team besitzt und verwaltet seine eigenen Daten als Produkt, statt alles in einem zentralen Data Warehouse zu bündeln.
Das klassische Problem: Ein zentrales Data-Team verwaltet alle Daten des Unternehmens. Mit wachsender Größe wird dieses Team zum Engpass – jedes andere Team wartet auf Datenzugang, Pipelines und Analysen. Das Ergebnis: Monate Wartezeit für einen neuen Report, veraltete Daten, frustrierte Teams.
Data Mesh kehrt das um: Statt alle Daten zentral zu sammeln, bleiben sie bei den Teams, die sie erzeugen. Das Marketing-Team besitzt Marketing-Daten, das Produkt-Team Produkt-Daten. Jedes Team ist verantwortlich für Qualität, Dokumentation und Zugänglichkeit – Daten als Produkt.
Der Begriff wurde 2019 von Zhamak Dehghani (ThoughtWorks) geprägt und hat seitdem besonders in großen Tech-Unternehmen wie Netflix, Airbnb und Zalando Verbreitung gefunden.
Zentralisiert vs. Data Mesh:
| Aspekt | Zentrales Warehouse | Data Mesh |
|---|---|---|
| Eigentümerschaft | Zentrales Daten-Team | Domänen-Teams |
| Skalierung | Bottleneck | Unabhängig |
| Qualitätsverantwortung | Zentrales Team | Produzierende Teams |
| Governance | Top-down | Federated |
| Time-to-Data | Wochen bis Monate | Tage |
1. Domain-oriented Ownership Jede Geschäftsdomäne (Commerce, Marketing, Logistik) besitzt ihre Daten vollständig – von der Erfassung bis zur Bereitstellung. Das Team, das die Daten am besten versteht, ist auch für ihre Qualität verantwortlich.
2. Data as a Product Daten werden nicht als Nebenprodukt behandelt, sondern als echtes Produkt mit Nutzern, SLAs und Qualitätsstandards:
3. Self-Serve Data Platform Eine zentrale Plattform stellt Infrastruktur bereit, die Teams befähigt, Datenprodukte ohne Spezialkenntnisse zu erstellen und zu betreiben – Storage, Processing, Catalog, Monitoring als Self-Service.
4. Federated Computational Governance Gemeinsame Standards (Formate, Sicherheit, Datenschutz) werden zentral definiert, aber dezentral ausgeführt. Kein Team muss auf Genehmigungen warten, solange es die Standards einhält.
# data-product.yaml – jedes Team definiert sein Datenprodukt
name: customer-orders
owner: commerce-team
domain: commerce
version: "2.1.0"
output_ports:
- type: bigquery_table
location: project.commerce.customer_orders
schema: ./schema/orders.json
sla:
freshness: 1h
availability: 99.9%
documentation:
description: "Alle Kundenbestellungen seit 2020"
data_dictionary: ./docs/orders.md
sample_data: ./samples/orders_sample.json
Zentrale Plattform definiert:
✓ Datenformate und Standards (Parquet, Avro)
✓ Sicherheits- und Datenschutzregeln (DSGVO-Compliance)
✓ Interoperabilitäts-Protokolle
✓ Qualitäts-Mindeststandards
Teams entscheiden selbst:
✓ Technologie-Stack (BigQuery, Snowflake, dbt)
✓ Interne Datenmodelle
✓ Pipeline-Implementierung
✓ Deployment-Frequenz
Data Mesh ist besonders wertvoll für KI-Systeme in großen Organisationen:
ML-Team benötigt Features für Empfehlungsmodell:
→ Commerce-Team stellt customer_orders als Data Product bereit
→ Marketing-Team stellt user_behavior als Data Product bereit
→ ML-Team kombiniert beide ohne zentrale Pipeline-Anfragen
Feature Store als Data Product:
→ ML-Team veröffentlicht berechnete Features (user_embedding, purchase_propensity)
→ Andere Teams können diese Features konsumieren
→ Versioniert, dokumentiert, mit SLA
Data Mesh ist wie ein Marktplatz statt einem Supermarkt: Im Supermarkt (Data Warehouse) kauft alles zentral ein und verkauft es weiter. Auf dem Marktplatz hat jeder Händler (Team) seinen eigenen Stand, seine eigenen Produkte und ist selbst verantwortlich für Qualität – aber alle folgen denselben Marktregeln.
Domain Ownership: Jedes Team besitzt und verantwortet seine eigenen Daten
Data as a Product: Daten werden wie Produkte behandelt – mit SLAs, Dokumentation und Qualitätsstandards
Self-Serve Data Platform: Zentrale Infrastruktur, die Teams befähigt, Daten eigenständig zu verwalten
Große Organisationen
Wenn ein zentrales Data-Team zum Bottleneck wird und Dutzende Teams auf Datenzugang warten
KI-Feature-Stores
Jedes ML-Team verwaltet seine eigenen Features als Produkt – andere Teams können sie konsumieren
Compliance und Datenschutz
Klare Dateneigentümerschaft vereinfacht DSGVO-Compliance – jedes Team kennt seine Daten
Ein Data Lake ist eine zentrale Speicherlösung – alle Daten an einem Ort, ein Team verwaltet alles. Data Mesh ist ein organisatorisches Prinzip: Daten bleiben bei den Teams, die sie erzeugen. Ein Data Lake kann Teil einer Data-Mesh-Infrastruktur sein, aber das Eigentümerschaftsmodell ist fundamental anders.
Data Mesh löst Skalierungsprobleme in großen Organisationen mit vielen Teams und Domänen. Für kleine Unternehmen mit einem Daten-Team ist ein zentrales Data Warehouse oft effizienter. Der Overhead von Data Mesh (Governance, Standards, Self-Serve-Plattform) lohnt sich erst ab einer gewissen Größe.
1. Domain-oriented decentralized data ownership: Jede Domäne besitzt ihre Daten. 2. Data as a product: Daten werden wie Produkte behandelt. 3. Self-serve data infrastructure: Zentrale Plattform befähigt Teams. 4. Federated computational governance: Gemeinsame Standards bei dezentraler Ausführung.