<EbeneX/>
DevOps Daten · Updated 3. März 2026

Apache Kafka

Definition

Eine verteilte Streaming-Plattform für den Echtzeit-Transport von Daten zwischen Systemen – das Rückgrat moderner ML-Pipelines, Feature Stores und Event-Driven Architectures.

Experte 2 Min. Lesezeit EN: Apache Kafka

Einfach erklärt

Apache Kafka ist eine verteilte Streaming-Plattform, die Daten in Echtzeit zwischen Systemen transportiert. Entwickelt bei LinkedIn (2011), heute eines der meistgenutzten Open-Source-Projekte für Dateninfrastruktur.

Kernkonzepte:

  • Topic: Ein benannter Datenstrom (z. B. „user-clicks”, „model-predictions”)
  • Producer: Schreibt Events in Topics
  • Consumer: Liest Events aus Topics
  • Partition: Topics werden aufgeteilt für Parallelität
  • Consumer Group: Mehrere Consumer teilen sich die Last
Producer A ──▶ ┌─────────────────┐ ──▶ Consumer 1 (ML-Modell)
Producer B ──▶ │  Topic: events  │ ──▶ Consumer 2 (Dashboard)
Producer C ──▶ │  (3 Partitions) │ ──▶ Consumer 3 (Data Lake)
               └─────────────────┘

Kafka in ML-Architekturen

Use CasePattern
Echtzeit-InferenzRequest → Kafka → Model Service → Kafka → Response
Feature StoreRaw Events → Kafka → Feature Computation → Store
MonitoringPredictions → Kafka → Drift Detection → Alert
RetrainingKafka Topics als Training-Data-Source

Alternativen

ToolStärkeSchwäche
KafkaDurchsatz, PersistenzKomplexität
RabbitMQEinfachheit, RoutingKein Replay
Redis StreamsLatenzWeniger persistent
RedpandaKafka-kompatibel, einfacherJüngeres Ökosystem
AWS KinesisManaged, AWS-IntegrationVendor Lock-in

Kafka ist wie ein riesiges Förderband in einer Fabrik: Daten werden am einen Ende aufgelegt und an beliebig vielen Stationen abgegriffen – zuverlässig, in der richtigen Reihenfolge und ohne dass etwas verloren geht.

Verarbeitet Millionen Events pro Sekunde mit niedrigen Latenzen

Persistente, unveränderliche Event-Logs für Replay und Audit

Zentrales Rückgrat für Echtzeit-ML-Pipelines und Feature-Engineering

Echtzeit-Feature-Engineering

Features für ML-Modelle in Echtzeit aus Streaming-Daten berechnen

Model Serving Pipeline

Inferenz-Anfragen über Kafka verteilen und Ergebnisse asynchron zurückliefern

Data Integration

Daten aus verschiedenen Quellen (Datenbanken, APIs, IoT) in einem zentralen Stream bündeln

Wann brauche ich Kafka statt einer normalen Message Queue?

Wenn du hohen Durchsatz, persistente Logs, Replay-Fähigkeit oder mehrere unabhängige Consumer für dieselben Daten brauchst. Für einfache Job-Queues reicht RabbitMQ oder Redis.

Ist Kafka schwer zu betreiben?

Ja, Self-Hosted Kafka ist komplex (ZooKeeper, Partitionen, Replication). Managed Services wie Confluent Cloud, AWS MSK oder Redpanda vereinfachen den Betrieb erheblich.

Wie nutzen ML-Teams Kafka?

Für Echtzeit-Feature-Pipelines, Streaming-Inferenz, Model-Monitoring (Drift-Detection auf Live-Daten) und als Event Source für Training-Daten-Pipelines.

Dein persönliches Share-Bild für Instagram – 1080×1080px, bereit zum Posten.