Inferenz: KI-Modelle auf neue Daten anwenden

ERKLÄRUNG

Einfach erklärt

Inferenz ist der Produktionsbetrieb eines KI-Modells: Das trainierte Modell bekommt neue, ungesehene Eingaben und generiert Vorhersagen. Training passiert einmal – Inferenz passiert millionenfach täglich. Bei einem Dienst wie ChatGPT ist jede Antwort ein Inferenz-Vorgang. Die Kosten, Latenz und Skalierbarkeit von KI-Produkten werden fast ausschließlich durch die Inferenz-Effizienz bestimmt – nicht durch das Training. Deshalb ist Inference Optimization eines der wichtigsten Felder in der KI-Produktion.

Inferenz ist der Moment, in dem ein KI-Modell tatsächlich arbeitet. Nach dem Training wird das Modell eingesetzt, um für neue Eingaben Vorhersagen zu treffen – das ist Inferenz. Training passiert einmal; Inferenz passiert millionenfach.

Inferenz-Optimierung ist deshalb oft wichtiger als Training-Optimierung. Ein Modell, das in der Produktion 500ms pro Anfrage braucht, ist für Echtzeit-Anwendungen unbrauchbar. Techniken wie Quantisierung, Batching, Caching und spezielle Inferenz-Hardware (wie Nvidias TensorRT oder Apples Neural Engine) reduzieren Latenz und Kosten. Bei LLMs ist Inferenz besonders teuer, weil jedes Token sequenziell generiert wird – deshalb ist KV-Caching eine der wichtigsten Optimierungen.

Training vs. Inferenz:

Aspekt	Training	Inferenz
Ziel	Modell lernt	Modell wird angewendet
Häufigkeit	Einmalig/selten	Millionenfach
Kosten	Sehr hoch (einmalig)	Gering (pro Anfrage)
Hardware	Viele GPUs	Weniger GPUs/CPUs
Geschwindigkeit	Stunden-Monate	Millisekunden-Sekunden

Technischer Deep Dive

LLM-Inferenz

Bei LLMs besteht Inferenz aus zwei Phasen:

1. Prefill (Prompt-Verarbeitung):

Alle Input-Tokens werden parallel verarbeitet
KV-Cache wird aufgebaut
Compute-bound (GPU-Rechenleistung ist der Flaschenhals)

2. Decode (Token-Generierung):

Tokens werden nacheinander generiert
Jedes neue Token nutzt den KV-Cache
Memory-bound (Speicherbandbreite ist der Flaschenhals)

Optimierungen

KV-Cache: Speichert berechnete Key/Value-Vektoren für schnellere Generierung
Continuous Batching: Mehrere Anfragen gleichzeitig verarbeiten
Quantisierung: Reduzierte Präzision (FP16 → INT8 → INT4)
Speculative Decoding: Kleines Modell schlägt Tokens vor, großes verifiziert
PagedAttention: Effiziente Speicherverwaltung (vLLM)

Metriken

TTFT (Time to First Token): Latenz bis zum ersten generierten Token
TPS (Tokens per Second): Generierungsgeschwindigkeit
Throughput: Anfragen pro Sekunde
Latency P50/P95/P99: Antwortzeiten-Verteilung

ANALOGIE

Wenn Training das Studium ist, dann ist Inferenz die Prüfung: Das Modell wendet sein gelerntes Wissen auf neue, unbekannte Aufgaben an.

WICHTIGSTE PUNKTE

Die Phase, in der ein trainiertes Modell Vorhersagen für neue Eingaben trifft

Muss schnell und kosteneffizient sein, da sie bei jeder Nutzeranfrage ausgeführt wird

Optimierungen: Quantisierung, Batching, KV-Cache, Speculative Decoding

ANWENDUNGSFÄLLE

ChatGPT-Antworten

Jede Antwort von ChatGPT ist ein Inferenz-Vorgang des GPT-Modells

Echtzeit-Bilderkennung

Gesichtserkennung auf dem Smartphone in Millisekunden

Empfehlungssysteme

Personalisierte Vorschläge in Echtzeit bei Netflix oder Spotify

HÄUFIGE FRAGEN

Was ist der Unterschied zwischen Training und Inferenz?

Training: Das Modell lernt aus Daten (teuer, langsam, einmalig). Inferenz: Das trainierte Modell wird angewendet (günstig pro Anfrage, schnell, millionenfach). Training passt Gewichte an, Inferenz nutzt sie nur.

Warum ist Inferenz-Geschwindigkeit wichtig?

Nutzer erwarten schnelle Antworten. Bei LLMs bestimmt die Inferenz-Geschwindigkeit, wie schnell Tokens generiert werden (Tokens/Sekunde). Langsame Inferenz = schlechte Nutzererfahrung und hohe Kosten.

Was kostet Inferenz?

Bei API-Anbietern: pro Token (z.B. $2–10/1M Tokens bei GPT-5). Selbst gehostet: GPU-Kosten ($1-10/Stunde). Optimierungen wie Quantisierung und Batching senken die Kosten erheblich.

TOOLS & RESSOURCEN

vLLM

Hochperformante Inferenz-Engine für LLMs mit PagedAttention

TensorRT

NVIDIAs Inferenz-Optimierer für maximale GPU-Performance

llama.cpp

Effiziente lokale LLM-Inferenz auf CPU und GPU

Ollama

Einfaches Tool zum lokalen Ausführen von LLMs

VERWANDTE BEGRIFFE

Grundlagen

Modell

Eine mathematische Repräsentation, die aus Daten gelernte Muster enthält und Vorhersagen oder Entscheidungen für neue Eingaben treffen kann.

Grundlagen

Parameter

Die internen Zahlenwerte eines KI-Modells, die während des Trainings gelernt werden und das 'Wissen' des Modells repräsentieren.

Grundlagen LLM

Tokens

Die kleinsten Texteinheiten, in die ein Sprachmodell Text zerlegt – Wörter, Wortteile oder einzelne Zeichen, die das Modell verarbeiten kann.

LLM Grundlagen

Large Language Model (LLM)

Ein KI-Modell, das auf riesigen Textmengen trainiert wurde und menschenähnliche Sprache verstehen und generieren kann.

DevOps Grundlagen

Quantisierung

Eine Optimierungstechnik, die die Präzision der Gewichte eines KI-Modells reduziert (z.B. von 32-Bit auf 4-Bit), um Speicherbedarf und Rechenaufwand drastisch zu senken.