<EbeneX/>
DevOps · Updated 3. März 2026

Observability

Definition

Die Fähigkeit, den internen Zustand eines Systems anhand seiner externen Ausgaben zu verstehen – bestehend aus den drei Säulen Logs, Metrics und Traces.

Fortgeschritten 1 Min. Lesezeit EN: Observability

Einfach erklärt

Monitoring sagt dir: „Der Service ist down.” Observability sagt dir: „Der Service ist down, weil der Datenbankaufruf in Funktion X bei User Y nach 30 Sekunden timeoutet, ausgelöst durch eine langsame Query, die durch einen fehlenden Index verursacht wird.”

Der Unterschied liegt in der Tiefe: Monitoring überwacht bekannte Metriken. Observability gibt dir die Werkzeuge, um unbekannte Probleme in komplexen, verteilten Systemen zu untersuchen.

Die drei Säulen:

SäuleWas es istBeispiel
LogsZeitgestempelte EreignisseERROR: DB timeout after 30s
MetricsNumerische Messwertep99_latency = 2.3s
TracesAnfragepfad durch ServicesRequest → Auth → DB → Cache → Response

Technischer Deep Dive

OpenTelemetry-Instrumentierung (Python)

from opentelemetry import trace

tracer = trace.get_tracer(__name__)

def generate_response(prompt: str) -> str:
    with tracer.start_as_current_span("llm-generation") as span:
        span.set_attribute("prompt.length", len(prompt))
        span.set_attribute("model", "gpt-5")

        result = llm.generate(prompt)

        span.set_attribute("response.tokens", result.token_count)
        return result.text

Wichtige Metriken für KI-Systeme

  • TTFT (Time to First Token): Wie lange bis das erste Token kommt
  • Token-Throughput: Tokens pro Sekunde
  • Fehlerrate: Anteil fehlgeschlagener Anfragen
  • Retrieval-Latenz: Zeit für Vektordatenbankabfragen in RAG-Systemen

Observability ist wie die Instrumente im Cockpit eines Flugzeugs: Du kannst nicht in den Motor schauen, aber Drehzahl, Temperatur und Treibstoffstand zeigen dir genau, was drinnen passiert. Monitoring sagt dir, ob das Flugzeug fliegt – Observability sagt dir, warum es abstürzt.

Drei Säulen: Logs (Ereignisse), Metrics (Messwerte), Traces (Anfragepfade)

Unterschied zu Monitoring: Observability erklärt das Warum, Monitoring das Was

Besonders wichtig für verteilte Systeme und Microservices

LLM-Debugging

Traces zeigen, welcher Teil der RAG-Pipeline (Retrieval, Reranking, Generation) für Latenz verantwortlich ist

Incident Response

Bei einem Ausfall sofort erkennen, welcher Service die Ursache ist und warum

Performance-Optimierung

Engpässe in verteilten Systemen identifizieren, die im Monitoring unsichtbar wären

Was ist der Unterschied zwischen Observability und Monitoring?

Monitoring prüft bekannte Zustände: 'Ist die CPU über 90%?' Observability ermöglicht es, unbekannte Probleme zu untersuchen: 'Warum ist diese spezifische Anfrage langsam?' Monitoring sagt dir, dass etwas falsch ist – Observability hilft dir herauszufinden, was und warum.

Was sind die drei Säulen der Observability?

Logs: Zeitgestempelte Ereignisse (Fehler, Aktionen). Metrics: Numerische Messwerte über Zeit (CPU, Latenz, Fehlerrate). Traces: Der vollständige Pfad einer Anfrage durch alle beteiligten Services – mit Zeitstempeln pro Schritt.

Was ist Distributed Tracing?

Eine Technik, bei der jede Anfrage eine eindeutige Trace-ID bekommt, die durch alle Services weitergegeben wird. So kann man den kompletten Weg einer Anfrage nachverfolgen und sehen, wo Zeit verloren geht.

Dein persönliches Share-Bild für Instagram – 1080×1080px, bereit zum Posten.