ETL und ELT einfach erklärt – Datenpipelines im Vergleich

ERKLÄRUNG

Einfach erklärt

ETL und ELT sind die zwei grundlegenden Muster, um Daten aus verschiedenen Quellen in ein Zielsystem zu überführen. Der Unterschied liegt darin, wo die Transformation stattfindet: Bei ETL werden Daten transformiert, bevor sie ins Data Warehouse geladen werden – klassisch für On-Premise-Systeme. Bei ELT werden Rohdaten zuerst geladen und dann im Warehouse transformiert – der Standard in modernen Cloud-Architekturen, weil Rechenleistung im Warehouse günstiger ist als in separaten ETL-Servern.

ETL (Extract, Transform, Load) und ELT (Extract, Load, Transform) sind die zwei dominanten Muster für Datenpipelines. Sie beschreiben, wie Rohdaten aus verschiedenen Quellen in ein Zielsystem – meist ein Data Warehouse – übertragen werden. Der Unterschied liegt darin, wo die Transformation stattfindet: vor dem Laden (ETL) oder danach (ELT). Moderne Cloud-Data-Warehouses haben ELT populär gemacht, weil die Rechenleistung im Warehouse günstiger ist.

ETL und ELT beschreiben, in welcher Reihenfolge Daten verarbeitet werden:

ETL (klassisch):

Quellen → Extract → Transform → Load → Data Warehouse
                     (vorher)

ELT (modern):

Quellen → Extract → Load → Transform → Analysefertige Daten
                    (Rohdaten)  (im Warehouse)

Aspekt	ETL	ELT
Transformation	Vor dem Laden	Nach dem Laden
Speicher	Nur transformierte Daten	Rohdaten + transformierte
Flexibilität	Schema vorab definiert	Schema on Read
Performance	Begrenzt durch ETL-Server	Nutzt Warehouse-Power

Technischer Deep Dive

Der moderne ELT-Stack

Extract + Load: Fivetran, Airbyte → Daten aus APIs, DBs, SaaS in Data Warehouse
Transform: dbt → SQL-basierte Transformationen im Warehouse
Orchestrierung: Airflow, Prefect → Scheduling und Monitoring
Warehouse: BigQuery, Snowflake, Redshift → Speicherung und Berechnung

Vorteile von ELT

Rohdaten bleiben erhalten (Replay möglich)
Neue Transformationen ohne erneutes Laden
Skaliert mit der Warehouse-Leistung
Einfacherer Debugging (Rohdaten inspizierbar)

ANALOGIE

ETL ist wie Kochen vor dem Servieren – das Essen kommt fertig auf den Teller. ELT ist wie ein Buffet mit Rohzutaten – die Gäste (Analysten) bereiten sich ihr Gericht selbst zu.

WICHTIGSTE PUNKTE

ETL: Extract → Transform → Load – Daten werden vor dem Laden transformiert

ELT: Extract → Load → Transform – Rohdaten werden geladen, dann im Ziel transformiert

ELT ist der moderne Standard dank leistungsstarker Cloud-Data-Warehouses

ANWENDUNGSFÄLLE

Data Warehousing

Geschäftsdaten aus verschiedenen Quellen zusammenführen und aufbereiten

ML-Datenaufbereitung

Trainingsdaten aus Rohdaten extrahieren und transformieren

Reporting

Daten für Business-Intelligence-Dashboards aufbereiten

HÄUFIGE FRAGEN

Wann ETL, wann ELT?

ELT ist der moderne Standard für Cloud-Umgebungen mit leistungsstarken Data Warehouses (BigQuery, Snowflake). ETL ist sinnvoll bei sensiblen Daten (Transformation vor dem Laden für Datenschutz) oder bei Legacy-Systemen.

Was bedeutet das für KI-Projekte?

ML-Pipelines nutzen oft ELT: Rohdaten werden in einen Data Lake geladen, dann mit Tools wie Spark oder dbt für das Training transformiert. Feature Engineering ist die 'T'-Phase für ML.

Wann sollte ich ETL und wann ELT verwenden?

ETL ist ideal, wenn die Daten vor dem Laden transformiert werden müssen, um die Qualität zu sichern. ELT eignet sich besser, wenn große Mengen an Rohdaten schnell geladen werden müssen und die Transformation im Zielsystem effizient durchgeführt werden kann.

Welche Tools sind empfehlenswert für ETL und ELT-Prozesse?

Für ETL-Prozesse sind Tools wie Talend oder Apache Nifi beliebt, während für ELT-Prozesse Plattformen wie Snowflake oder Google BigQuery häufig verwendet werden. Die Wahl des Tools hängt von den spezifischen Anforderungen und der vorhandenen Infrastruktur ab.

TOOLS & RESSOURCEN

dbt

Standard-Tool für die T-Phase in ELT (SQL-Transformationen)

Fivetran

Managed EL-Tool für die Extraktion und das Laden von Daten

Airbyte

Open-Source-Alternative für Datenextraktion und -laden

Apache Spark

Verteilte Datenverarbeitung für große ETL-Jobs

VERWANDTE BEGRIFFE

Daten DevOps

Data Pipeline

Eine automatisierte Abfolge von Schritten, die Daten von der Quelle über Transformation bis zum Ziel transportiert und verarbeitet.

Daten DevOps

Data Lake

Ein zentraler Speicher, der große Mengen an Rohdaten in ihrem ursprünglichen Format aufnimmt – strukturiert, semi-strukturiert und unstrukturiert.

Daten DevOps

Data Warehouse

Ein zentrales Datenspeichersystem, das strukturierte, aufbereitete Daten aus verschiedenen Quellen für schnelle analytische Abfragen optimiert bereitstellt.

DevOps Praxis

DevOps

Die Praxis, Machine-Learning-Modelle zuverlässig und effizient in Produktion zu bringen und zu betreiben – die Verbindung von ML, DevOps und Data Engineering.

Daten Grundlagen

Feature Engineering

Der Prozess, aus Rohdaten aussagekräftige Merkmale (Features) zu extrahieren oder zu erstellen, die einem ML-Modell helfen, bessere Vorhersagen zu treffen.

ETL / ELT

Einfach erklärt

Technischer Deep Dive

Der moderne ELT-Stack

Vorteile von ELT

Data Pipeline

Data Lake

Data Warehouse

DevOps

Feature Engineering