Data Lake
Ein zentraler Speicher, der große Mengen an Rohdaten in ihrem ursprünglichen Format aufnimmt – strukturiert, semi-strukturiert und unstrukturiert.
Ein zentrales Datenspeichersystem, das strukturierte, aufbereitete Daten aus verschiedenen Quellen für schnelle analytische Abfragen optimiert bereitstellt.
Ein Data Warehouse ist eine zentrale, optimierte Datenbank für analytische Abfragen über große Datenmengen. Es sammelt Daten aus verschiedenen operativen Systemen – CRM, ERP, Web-Analytics – bereinigt sie und macht sie für schnelle Analysen verfügbar. Für KI-Projekte ist das Data Warehouse oft der Ausgangspunkt: Hier liegen die historischen Daten, die für das Modell-Training benötigt werden. Moderne Cloud-Lösungen wie BigQuery, Snowflake und Redshift sind heute Standard. Sie können direkt mit ML-Plattformen integriert werden: Daten bleiben im Warehouse, Modelle werden dort trainiert (BigQuery ML) und Vorhersagen werden zurückgeschrieben. Der Unterschied zum Data Lake: Das Data Warehouse enthält strukturierte, transformierte Daten – der Data Lake enthält Rohdaten in beliebigem Format.
Ein Data Warehouse ist ein spezialisierter Datenspeicher für analytische Abfragen. Es sammelt Daten aus verschiedenen Quellen, bereinigt und strukturiert sie und macht sie für schnelle Analysen verfügbar.
Data Warehouse vs. Datenbank vs. Data Lake:
| Aspekt | Datenbank (OLTP) | Data Warehouse (OLAP) | Data Lake |
|---|---|---|---|
| Zweck | Transaktionen | Analysen | Rohdatenspeicher |
| Daten | Aktuell | Historisch | Roh, alle Formate |
| Abfragen | Einzelne Zeilen | Aggregationen | Flexibel |
| Schema | Normalisiert | Star/Snowflake | Schema on Read |
Standard-Datenmodell für Data Warehouses:
Einzelhandel: Ein großes Einzelhandelsunternehmen nutzt ein Data Warehouse, um Verkaufsdaten aus verschiedenen Filialen zu aggregieren. Dies ermöglicht es dem Unternehmen, Trends zu identifizieren und gezielte Marketingstrategien zu entwickeln.
Finanzsektor: Banken setzen Data Warehouses ein, um Transaktionsdaten zu analysieren, Betrug zu erkennen und regulatorische Berichte zu erstellen.
Gesundheitswesen: Krankenhäuser verwenden Data Warehouses, um Patientendaten zu speichern und zu analysieren, was zu besseren Behandlungsentscheidungen und einer höheren Patientensicherheit führt.
Data Warehousing hat seine Wurzeln in den 1980er Jahren, als Unternehmen begannen, große Mengen an Daten zu sammeln und zu speichern. Der Begriff “Data Warehouse” wurde erstmals von Bill Inmon geprägt, der als Vater des Data Warehousing gilt. In den 1990er Jahren entwickelten sich die ersten kommerziellen Data Warehouse-Lösungen, und mit dem Aufkommen von Big Data und Cloud-Computing in den 2000er Jahren erlebte das Konzept einen neuen Aufschwung. Heute sind Data Warehouses ein unverzichtbarer Bestandteil der Datenarchitektur vieler Unternehmen.
Ein Data Warehouse ist wie ein gut sortiertes Archiv: Alle Dokumente sind katalogisiert, indexiert und sofort auffindbar – im Gegensatz zum Data Lake, wo alles erstmal in Kisten gelagert wird.
Speichert strukturierte, bereinigte Daten optimiert für analytische Abfragen
Schema on Write: Datenstruktur wird beim Laden definiert
Grundlage für Business Intelligence, Reporting und analytische ML-Features
Business Intelligence
Dashboards und Reports für Geschäftsentscheidungen
Analytische Features
Aggregierte Daten als Basis für ML-Feature-Engineering
Historische Analysen
Trends und Muster über lange Zeiträume analysieren
Nicht zwingend, aber es hilft. Ein Data Warehouse liefert saubere, konsistente Daten für Feature Engineering und Evaluation. Für reines LLM-Training reicht oft ein Data Lake.
Cloud (BigQuery, Snowflake) ist für die meisten Unternehmen die bessere Wahl: Keine Hardware-Verwaltung, elastische Skalierung, Pay-per-Query. On-Premise nur bei strengen Datenschutzanforderungen.
Ein Data Warehouse speichert strukturierte und aufbereitete Daten, die für analytische Abfragen optimiert sind, während ein Data Lake Rohdaten in verschiedenen Formaten speichert. Data Warehouses sind ideal für schnelle Abfragen, während Data Lakes Flexibilität bei der Datenspeicherung bieten.
ETL (Extract, Transform, Load) ist entscheidend für den Data Warehouse-Prozess, da es die Daten aus verschiedenen Quellen extrahiert, sie in ein einheitliches Format transformiert und schließlich in das Data Warehouse lädt. Dies sorgt für konsistente und qualitativ hochwertige Daten für Analysen.