Data Lake: Rohdaten zentral speichern und nutzen

ERKLÄRUNG

Einfach erklärt

Ein Data Lake ist ein zentrales Repository für alle Arten von Rohdaten – strukturiert, semi-strukturiert und unstrukturiert – in beliebigem Format und beliebiger Menge. Im Gegensatz zum Data Warehouse, das nur sauber transformierte Daten aufnimmt, akzeptiert ein Data Lake alles: Logs, Bilder, Videos, JSON-Dateien, CSV-Exporte, Sensor-Daten. Das Motto: “Erst speichern, dann entscheiden was man damit macht.” Für KI-Projekte ist der Data Lake oft die erste Anlaufstelle für Rohdaten, aus denen Trainingsdatensätze erstellt werden.

Ein Data Lake ist ein zentraler Speicher für alle Arten von Daten in ihrem Rohformat – strukturiert, semi-strukturiert und unstrukturiert. Im Gegensatz zum Data Warehouse, das nur sauber transformierte Daten aufnimmt, akzeptiert ein Data Lake alles: Logs, Bilder, Videos, JSON-Dateien, CSV-Exporte, Sensor-Daten. Für KI-Projekte ist der Data Lake oft die erste Anlaufstelle: Hier liegen die Rohdaten, aus denen Trainingsdatensätze erstellt werden.

Ein Data Lake ist ein riesiger Speicher für alle Arten von Daten in ihrem Rohformat. Anders als ein Data Warehouse, das nur sauber strukturierte Daten aufnimmt, akzeptiert ein Data Lake alles – Tabellen, JSON, Bilder, Videos, Logs.

Data Lake vs. Data Warehouse:

Aspekt	Data Lake	Data Warehouse
Datenformat	Roh, alle Formate	Strukturiert, bereinigt
Schema	Schema on Read	Schema on Write
Kosten	Günstig (Objektspeicher)	Teurer (optimierte DBs)
Nutzer	Data Scientists, ML Engineers	Business Analysten
Abfragen	Flexibel, aber langsamer	Schnell, optimiert

Technischer Deep Dive

Architektur

Datenquellen → Ingestion → Data Lake (S3/GCS) → Processing → Consumers
(APIs, DBs,    (Kafka,      (Rohdaten in         (Spark,      (ML Training,
 Logs, IoT)    Fivetran)     Zonen organisiert)    dbt)         Analytics)

Zonen-Konzept

Raw/Bronze: Rohdaten, unverändert
Cleaned/Silver: Bereinigte, validierte Daten
Curated/Gold: Aufbereitete, analysefertige Daten

Data Lakehouse

Moderne Kombination: Delta Lake oder Iceberg auf S3/GCS mit:

ACID-Transaktionen
Schema Evolution
Time Travel (historische Versionen)
Schnelle Abfragen durch Statistiken und Indexierung

ANALOGIE

Ein Data Lake ist wie ein großer See, in den alle Flüsse (Datenquellen) münden: Das Wasser (die Daten) wird in seiner natürlichen Form gespeichert und erst bei Bedarf gefiltert und aufbereitet.

WICHTIGSTE PUNKTE

Speichert Rohdaten in ihrem Originalformat (Schema on Read)

Kann strukturierte (Tabellen), semi-strukturierte (JSON) und unstrukturierte Daten (Bilder, Text) aufnehmen

Ideal für ML-Training, da Rohdaten flexibel transformiert werden können

ANWENDUNGSFÄLLE

ML-Trainingsdaten

Zentrale Ablage für alle Rohdaten, die für ML-Training genutzt werden

Log-Analyse

Speicherung und Analyse großer Mengen an Server- und Anwendungslogs

IoT-Daten

Sammlung von Sensordaten aus tausenden Geräten

HÄUFIGE FRAGEN

Was ist der Unterschied zwischen Data Lake und Data Warehouse?

Data Lake: Rohdaten, alle Formate, Schema on Read, günstig. Data Warehouse: Strukturierte, aufbereitete Daten, Schema on Write, teurer aber schneller für Abfragen. Moderne Architekturen nutzen oft beides (Lakehouse).

Was ist ein Data Lakehouse?

Eine Kombination aus Data Lake und Data Warehouse. Rohdaten im Lake-Format (günstig, flexibel) mit Warehouse-Features (ACID, Schema, schnelle Abfragen). Technologien: Delta Lake, Apache Iceberg.

Wie kann ich sicherstellen, dass mein Data Lake effizient bleibt?

Um die Effizienz Ihres Data Lakes zu gewährleisten, sollten Sie regelmäßige Datenbereinigungen und -archivierungen durchführen. Zudem ist es wichtig, Metadaten zu verwalten und geeignete Indizes zu verwenden, um die Datenabfrage zu optimieren.

Welche Tools eignen sich am besten zur Verwaltung eines Data Lakes?

Beliebte Tools zur Verwaltung von Data Lakes sind Apache Hadoop, Amazon S3 und Azure Data Lake Storage. Diese bieten Funktionen zur Speicherung, Verarbeitung und Analyse großer Datenmengen in verschiedenen Formaten.

TOOLS & RESSOURCEN

AWS S3

Der De-facto-Standard für Cloud-basierte Data Lakes

Delta Lake

Open-Source Storage Layer mit ACID-Transaktionen auf Data Lakes

Apache Iceberg

Open Table Format für große analytische Datasets

VERWANDTE BEGRIFFE

Daten DevOps

Data Warehouse

Ein zentrales Datenspeichersystem, das strukturierte, aufbereitete Daten aus verschiedenen Quellen für schnelle analytische Abfragen optimiert bereitstellt.

Daten DevOps

Data Pipeline

Eine automatisierte Abfolge von Schritten, die Daten von der Quelle über Transformation bis zum Ziel transportiert und verarbeitet.

Daten DevOps

ETL / ELT

Zwei Muster für Datenpipelines: ETL transformiert Daten vor dem Laden, ELT lädt Rohdaten zuerst und transformiert sie im Zielsystem.

DevOps Praxis

DevOps

Die Praxis, Machine-Learning-Modelle zuverlässig und effizient in Produktion zu bringen und zu betreiben – die Verbindung von ML, DevOps und Data Engineering.

Daten Grundlagen

Dataset

Eine strukturierte Sammlung von Daten, die für das Training, die Evaluation oder das Testen von KI-Modellen verwendet wird.