<EbeneX/>
Daten DevOps · Updated 3. März 2026

Data Lake

Definition

Ein zentraler Speicher, der große Mengen an Rohdaten in ihrem ursprünglichen Format aufnimmt – strukturiert, semi-strukturiert und unstrukturiert.

Fortgeschritten 2 Min. Lesezeit EN: Data Lake

Einfach erklärt

Ein Data Lake ist ein zentrales Repository für alle Arten von Rohdaten – strukturiert, semi-strukturiert und unstrukturiert – in beliebigem Format und beliebiger Menge. Im Gegensatz zum Data Warehouse, das nur sauber transformierte Daten aufnimmt, akzeptiert ein Data Lake alles: Logs, Bilder, Videos, JSON-Dateien, CSV-Exporte, Sensor-Daten. Das Motto: “Erst speichern, dann entscheiden was man damit macht.” Für KI-Projekte ist der Data Lake oft die erste Anlaufstelle für Rohdaten, aus denen Trainingsdatensätze erstellt werden.

Ein Data Lake ist ein zentraler Speicher für alle Arten von Daten in ihrem Rohformat – strukturiert, semi-strukturiert und unstrukturiert. Im Gegensatz zum Data Warehouse, das nur sauber transformierte Daten aufnimmt, akzeptiert ein Data Lake alles: Logs, Bilder, Videos, JSON-Dateien, CSV-Exporte, Sensor-Daten. Für KI-Projekte ist der Data Lake oft die erste Anlaufstelle: Hier liegen die Rohdaten, aus denen Trainingsdatensätze erstellt werden.

Ein Data Lake ist ein riesiger Speicher für alle Arten von Daten in ihrem Rohformat. Anders als ein Data Warehouse, das nur sauber strukturierte Daten aufnimmt, akzeptiert ein Data Lake alles – Tabellen, JSON, Bilder, Videos, Logs.

Data Lake vs. Data Warehouse:

AspektData LakeData Warehouse
DatenformatRoh, alle FormateStrukturiert, bereinigt
SchemaSchema on ReadSchema on Write
KostenGünstig (Objektspeicher)Teurer (optimierte DBs)
NutzerData Scientists, ML EngineersBusiness Analysten
AbfragenFlexibel, aber langsamerSchnell, optimiert

Technischer Deep Dive

Architektur

Datenquellen → Ingestion → Data Lake (S3/GCS) → Processing → Consumers
(APIs, DBs,    (Kafka,      (Rohdaten in         (Spark,      (ML Training,
 Logs, IoT)    Fivetran)     Zonen organisiert)    dbt)         Analytics)

Zonen-Konzept

  • Raw/Bronze: Rohdaten, unverändert
  • Cleaned/Silver: Bereinigte, validierte Daten
  • Curated/Gold: Aufbereitete, analysefertige Daten

Data Lakehouse

Moderne Kombination: Delta Lake oder Iceberg auf S3/GCS mit:

  • ACID-Transaktionen
  • Schema Evolution
  • Time Travel (historische Versionen)
  • Schnelle Abfragen durch Statistiken und Indexierung

Ein Data Lake ist wie ein großer See, in den alle Flüsse (Datenquellen) münden: Das Wasser (die Daten) wird in seiner natürlichen Form gespeichert und erst bei Bedarf gefiltert und aufbereitet.

Speichert Rohdaten in ihrem Originalformat (Schema on Read)

Kann strukturierte (Tabellen), semi-strukturierte (JSON) und unstrukturierte Daten (Bilder, Text) aufnehmen

Ideal für ML-Training, da Rohdaten flexibel transformiert werden können

ML-Trainingsdaten

Zentrale Ablage für alle Rohdaten, die für ML-Training genutzt werden

Log-Analyse

Speicherung und Analyse großer Mengen an Server- und Anwendungslogs

IoT-Daten

Sammlung von Sensordaten aus tausenden Geräten

Was ist der Unterschied zwischen Data Lake und Data Warehouse?

Data Lake: Rohdaten, alle Formate, Schema on Read, günstig. Data Warehouse: Strukturierte, aufbereitete Daten, Schema on Write, teurer aber schneller für Abfragen. Moderne Architekturen nutzen oft beides (Lakehouse).

Was ist ein Data Lakehouse?

Eine Kombination aus Data Lake und Data Warehouse. Rohdaten im Lake-Format (günstig, flexibel) mit Warehouse-Features (ACID, Schema, schnelle Abfragen). Technologien: Delta Lake, Apache Iceberg.

Wie kann ich sicherstellen, dass mein Data Lake effizient bleibt?

Um die Effizienz Ihres Data Lakes zu gewährleisten, sollten Sie regelmäßige Datenbereinigungen und -archivierungen durchführen. Zudem ist es wichtig, Metadaten zu verwalten und geeignete Indizes zu verwenden, um die Datenabfrage zu optimieren.

Welche Tools eignen sich am besten zur Verwaltung eines Data Lakes?

Beliebte Tools zur Verwaltung von Data Lakes sind Apache Hadoop, Amazon S3 und Azure Data Lake Storage. Diese bieten Funktionen zur Speicherung, Verarbeitung und Analyse großer Datenmengen in verschiedenen Formaten.

Dein persönliches Share-Bild für Instagram – 1080×1080px, bereit zum Posten.