Data Pipeline
Eine automatisierte Abfolge von Schritten, die Daten von der Quelle über Transformation bis zum Ziel transportiert und verarbeitet.
Zwei Muster für Datenpipelines: ETL transformiert Daten vor dem Laden, ELT lädt Rohdaten zuerst und transformiert sie im Zielsystem.
ETL und ELT sind die zwei grundlegenden Muster, um Daten aus verschiedenen Quellen in ein Zielsystem zu überführen. Der Unterschied liegt darin, wo die Transformation stattfindet: Bei ETL werden Daten transformiert, bevor sie ins Data Warehouse geladen werden – klassisch für On-Premise-Systeme. Bei ELT werden Rohdaten zuerst geladen und dann im Warehouse transformiert – der Standard in modernen Cloud-Architekturen, weil Rechenleistung im Warehouse günstiger ist als in separaten ETL-Servern.
ETL (Extract, Transform, Load) und ELT (Extract, Load, Transform) sind die zwei dominanten Muster für Datenpipelines. Sie beschreiben, wie Rohdaten aus verschiedenen Quellen in ein Zielsystem – meist ein Data Warehouse – übertragen werden. Der Unterschied liegt darin, wo die Transformation stattfindet: vor dem Laden (ETL) oder danach (ELT). Moderne Cloud-Data-Warehouses haben ELT populär gemacht, weil die Rechenleistung im Warehouse günstiger ist.
ETL und ELT beschreiben, in welcher Reihenfolge Daten verarbeitet werden:
ETL (klassisch):
Quellen → Extract → Transform → Load → Data Warehouse
(vorher)
ELT (modern):
Quellen → Extract → Load → Transform → Analysefertige Daten
(Rohdaten) (im Warehouse)
| Aspekt | ETL | ELT |
|---|---|---|
| Transformation | Vor dem Laden | Nach dem Laden |
| Speicher | Nur transformierte Daten | Rohdaten + transformierte |
| Flexibilität | Schema vorab definiert | Schema on Read |
| Performance | Begrenzt durch ETL-Server | Nutzt Warehouse-Power |
ETL ist wie Kochen vor dem Servieren – das Essen kommt fertig auf den Teller. ELT ist wie ein Buffet mit Rohzutaten – die Gäste (Analysten) bereiten sich ihr Gericht selbst zu.
ETL: Extract → Transform → Load – Daten werden vor dem Laden transformiert
ELT: Extract → Load → Transform – Rohdaten werden geladen, dann im Ziel transformiert
ELT ist der moderne Standard dank leistungsstarker Cloud-Data-Warehouses
Data Warehousing
Geschäftsdaten aus verschiedenen Quellen zusammenführen und aufbereiten
ML-Datenaufbereitung
Trainingsdaten aus Rohdaten extrahieren und transformieren
Reporting
Daten für Business-Intelligence-Dashboards aufbereiten
ELT ist der moderne Standard für Cloud-Umgebungen mit leistungsstarken Data Warehouses (BigQuery, Snowflake). ETL ist sinnvoll bei sensiblen Daten (Transformation vor dem Laden für Datenschutz) oder bei Legacy-Systemen.
ML-Pipelines nutzen oft ELT: Rohdaten werden in einen Data Lake geladen, dann mit Tools wie Spark oder dbt für das Training transformiert. Feature Engineering ist die 'T'-Phase für ML.
ETL ist ideal, wenn die Daten vor dem Laden transformiert werden müssen, um die Qualität zu sichern. ELT eignet sich besser, wenn große Mengen an Rohdaten schnell geladen werden müssen und die Transformation im Zielsystem effizient durchgeführt werden kann.
Für ETL-Prozesse sind Tools wie Talend oder Apache Nifi beliebt, während für ELT-Prozesse Plattformen wie Snowflake oder Google BigQuery häufig verwendet werden. Die Wahl des Tools hängt von den spezifischen Anforderungen und der vorhandenen Infrastruktur ab.