<EbeneX/>
Grundlagen · Updated 3. März 2026

Inferenz

Definition

Die Anwendung eines trainierten KI-Modells auf neue Daten, um Vorhersagen oder Ausgaben zu generieren – der produktive Einsatz nach dem Training.

Einsteiger 2 Min. Lesezeit EN: Inference

Einfach erklärt

Inferenz ist der Produktionsbetrieb eines KI-Modells: Das trainierte Modell bekommt neue, ungesehene Eingaben und generiert Vorhersagen. Training passiert einmal – Inferenz passiert millionenfach täglich. Bei einem Dienst wie ChatGPT ist jede Antwort ein Inferenz-Vorgang. Die Kosten, Latenz und Skalierbarkeit von KI-Produkten werden fast ausschließlich durch die Inferenz-Effizienz bestimmt – nicht durch das Training. Deshalb ist Inference Optimization eines der wichtigsten Felder in der KI-Produktion.

Inferenz ist der Moment, in dem ein KI-Modell tatsächlich arbeitet. Nach dem Training wird das Modell eingesetzt, um für neue Eingaben Vorhersagen zu treffen – das ist Inferenz. Training passiert einmal; Inferenz passiert millionenfach.

Inferenz-Optimierung ist deshalb oft wichtiger als Training-Optimierung. Ein Modell, das in der Produktion 500ms pro Anfrage braucht, ist für Echtzeit-Anwendungen unbrauchbar. Techniken wie Quantisierung, Batching, Caching und spezielle Inferenz-Hardware (wie Nvidias TensorRT oder Apples Neural Engine) reduzieren Latenz und Kosten. Bei LLMs ist Inferenz besonders teuer, weil jedes Token sequenziell generiert wird – deshalb ist KV-Caching eine der wichtigsten Optimierungen.

Training vs. Inferenz:

AspektTrainingInferenz
ZielModell lerntModell wird angewendet
HäufigkeitEinmalig/seltenMillionenfach
KostenSehr hoch (einmalig)Gering (pro Anfrage)
HardwareViele GPUsWeniger GPUs/CPUs
GeschwindigkeitStunden-MonateMillisekunden-Sekunden

Technischer Deep Dive

LLM-Inferenz

Bei LLMs besteht Inferenz aus zwei Phasen:

1. Prefill (Prompt-Verarbeitung):

  • Alle Input-Tokens werden parallel verarbeitet
  • KV-Cache wird aufgebaut
  • Compute-bound (GPU-Rechenleistung ist der Flaschenhals)

2. Decode (Token-Generierung):

  • Tokens werden nacheinander generiert
  • Jedes neue Token nutzt den KV-Cache
  • Memory-bound (Speicherbandbreite ist der Flaschenhals)

Optimierungen

  • KV-Cache: Speichert berechnete Key/Value-Vektoren für schnellere Generierung
  • Continuous Batching: Mehrere Anfragen gleichzeitig verarbeiten
  • Quantisierung: Reduzierte Präzision (FP16 → INT8 → INT4)
  • Speculative Decoding: Kleines Modell schlägt Tokens vor, großes verifiziert
  • PagedAttention: Effiziente Speicherverwaltung (vLLM)

Metriken

  • TTFT (Time to First Token): Latenz bis zum ersten generierten Token
  • TPS (Tokens per Second): Generierungsgeschwindigkeit
  • Throughput: Anfragen pro Sekunde
  • Latency P50/P95/P99: Antwortzeiten-Verteilung

Wenn Training das Studium ist, dann ist Inferenz die Prüfung: Das Modell wendet sein gelerntes Wissen auf neue, unbekannte Aufgaben an.

Die Phase, in der ein trainiertes Modell Vorhersagen für neue Eingaben trifft

Muss schnell und kosteneffizient sein, da sie bei jeder Nutzeranfrage ausgeführt wird

Optimierungen: Quantisierung, Batching, KV-Cache, Speculative Decoding

ChatGPT-Antworten

Jede Antwort von ChatGPT ist ein Inferenz-Vorgang des GPT-Modells

Echtzeit-Bilderkennung

Gesichtserkennung auf dem Smartphone in Millisekunden

Empfehlungssysteme

Personalisierte Vorschläge in Echtzeit bei Netflix oder Spotify

Was ist der Unterschied zwischen Training und Inferenz?

Training: Das Modell lernt aus Daten (teuer, langsam, einmalig). Inferenz: Das trainierte Modell wird angewendet (günstig pro Anfrage, schnell, millionenfach). Training passt Gewichte an, Inferenz nutzt sie nur.

Warum ist Inferenz-Geschwindigkeit wichtig?

Nutzer erwarten schnelle Antworten. Bei LLMs bestimmt die Inferenz-Geschwindigkeit, wie schnell Tokens generiert werden (Tokens/Sekunde). Langsame Inferenz = schlechte Nutzererfahrung und hohe Kosten.

Was kostet Inferenz?

Bei API-Anbietern: pro Token (z.B. $2–10/1M Tokens bei GPT-5). Selbst gehostet: GPU-Kosten ($1-10/Stunde). Optimierungen wie Quantisierung und Batching senken die Kosten erheblich.

Dein persönliches Share-Bild für Instagram – 1080×1080px, bereit zum Posten.