Observability: Logs, Metrics und Traces für moderne Systeme

ERKLÄRUNG

Einfach erklärt

Monitoring sagt dir: „Der Service ist down.” Observability sagt dir: „Der Service ist down, weil der Datenbankaufruf in Funktion X bei User Y nach 30 Sekunden timeoutet, ausgelöst durch eine langsame Query, die durch einen fehlenden Index verursacht wird.”

Der Unterschied liegt in der Tiefe: Monitoring überwacht bekannte Metriken. Observability gibt dir die Werkzeuge, um unbekannte Probleme in komplexen, verteilten Systemen zu untersuchen.

Die drei Säulen:

Säule	Was es ist	Beispiel
Logs	Zeitgestempelte Ereignisse	`ERROR: DB timeout after 30s`
Metrics	Numerische Messwerte	`p99_latency = 2.3s`
Traces	Anfragepfad durch Services	Request → Auth → DB → Cache → Response

Technischer Deep Dive

OpenTelemetry-Instrumentierung (Python)

from opentelemetry import trace

tracer = trace.get_tracer(__name__)

def generate_response(prompt: str) -> str:
    with tracer.start_as_current_span("llm-generation") as span:
        span.set_attribute("prompt.length", len(prompt))
        span.set_attribute("model", "gpt-5")

        result = llm.generate(prompt)

        span.set_attribute("response.tokens", result.token_count)
        return result.text

Wichtige Metriken für KI-Systeme

TTFT (Time to First Token): Wie lange bis das erste Token kommt
Token-Throughput: Tokens pro Sekunde
Fehlerrate: Anteil fehlgeschlagener Anfragen
Retrieval-Latenz: Zeit für Vektordatenbankabfragen in RAG-Systemen

ANALOGIE

Observability ist wie die Instrumente im Cockpit eines Flugzeugs: Du kannst nicht in den Motor schauen, aber Drehzahl, Temperatur und Treibstoffstand zeigen dir genau, was drinnen passiert. Monitoring sagt dir, ob das Flugzeug fliegt – Observability sagt dir, warum es abstürzt.

WICHTIGSTE PUNKTE

Drei Säulen: Logs (Ereignisse), Metrics (Messwerte), Traces (Anfragepfade)

Unterschied zu Monitoring: Observability erklärt das Warum, Monitoring das Was

Besonders wichtig für verteilte Systeme und Microservices

ANWENDUNGSFÄLLE

LLM-Debugging

Traces zeigen, welcher Teil der RAG-Pipeline (Retrieval, Reranking, Generation) für Latenz verantwortlich ist

Incident Response

Bei einem Ausfall sofort erkennen, welcher Service die Ursache ist und warum

Performance-Optimierung

Engpässe in verteilten Systemen identifizieren, die im Monitoring unsichtbar wären

HÄUFIGE FRAGEN

Was ist der Unterschied zwischen Observability und Monitoring?

Monitoring prüft bekannte Zustände: 'Ist die CPU über 90%?' Observability ermöglicht es, unbekannte Probleme zu untersuchen: 'Warum ist diese spezifische Anfrage langsam?' Monitoring sagt dir, dass etwas falsch ist – Observability hilft dir herauszufinden, was und warum.

Was sind die drei Säulen der Observability?

Logs: Zeitgestempelte Ereignisse (Fehler, Aktionen). Metrics: Numerische Messwerte über Zeit (CPU, Latenz, Fehlerrate). Traces: Der vollständige Pfad einer Anfrage durch alle beteiligten Services – mit Zeitstempeln pro Schritt.

Was ist Distributed Tracing?

Eine Technik, bei der jede Anfrage eine eindeutige Trace-ID bekommt, die durch alle Services weitergegeben wird. So kann man den kompletten Weg einer Anfrage nachverfolgen und sehen, wo Zeit verloren geht.

TOOLS & RESSOURCEN

OpenTelemetry

Open-Source-Standard für Instrumentierung – vendor-neutral

Grafana

Visualisierung von Metrics und Logs

Jaeger

Distributed Tracing System

Datadog

Kommerzielle All-in-One-Observability-Plattform

VERWANDTE BEGRIFFE

DevOps Praxis

Monitoring

Die kontinuierliche Überwachung von KI-Systemen in Produktion, um Performance-Probleme, Datenänderungen und Modellverschlechterung frühzeitig zu erkennen.

Web DevOps

Microservices

Ein Architekturmuster, bei dem eine Anwendung aus vielen kleinen, unabhängigen Services besteht, die jeweils eine spezifische Aufgabe erfüllen.

DevOps Praxis

DevOps

Die Praxis, Machine-Learning-Modelle zuverlässig und effizient in Produktion zu bringen und zu betreiben – die Verbindung von ML, DevOps und Data Engineering.

DevOps Web

Service Mesh

Eine dedizierte Infrastrukturschicht, die die Kommunikation zwischen Microservices übernimmt – inklusive Load Balancing, Verschlüsselung, Observability und Traffic-Management.

DevOps Praxis

Experiment Tracking

Die systematische Dokumentation von ML-Experimenten – Hyperparameter, Metriken, Code-Versionen und Artefakte, um Ergebnisse reproduzierbar und vergleichbar zu machen.