Modell
Eine mathematische Repräsentation, die aus Daten gelernte Muster enthält und Vorhersagen oder Entscheidungen für neue Eingaben treffen kann.
Die Anwendung eines trainierten KI-Modells auf neue Daten, um Vorhersagen oder Ausgaben zu generieren – der produktive Einsatz nach dem Training.
Inferenz ist der Produktionsbetrieb eines KI-Modells: Das trainierte Modell bekommt neue, ungesehene Eingaben und generiert Vorhersagen. Training passiert einmal – Inferenz passiert millionenfach täglich. Bei einem Dienst wie ChatGPT ist jede Antwort ein Inferenz-Vorgang. Die Kosten, Latenz und Skalierbarkeit von KI-Produkten werden fast ausschließlich durch die Inferenz-Effizienz bestimmt – nicht durch das Training. Deshalb ist Inference Optimization eines der wichtigsten Felder in der KI-Produktion.
Inferenz ist der Moment, in dem ein KI-Modell tatsächlich arbeitet. Nach dem Training wird das Modell eingesetzt, um für neue Eingaben Vorhersagen zu treffen – das ist Inferenz. Training passiert einmal; Inferenz passiert millionenfach.
Inferenz-Optimierung ist deshalb oft wichtiger als Training-Optimierung. Ein Modell, das in der Produktion 500ms pro Anfrage braucht, ist für Echtzeit-Anwendungen unbrauchbar. Techniken wie Quantisierung, Batching, Caching und spezielle Inferenz-Hardware (wie Nvidias TensorRT oder Apples Neural Engine) reduzieren Latenz und Kosten. Bei LLMs ist Inferenz besonders teuer, weil jedes Token sequenziell generiert wird – deshalb ist KV-Caching eine der wichtigsten Optimierungen.
Training vs. Inferenz:
| Aspekt | Training | Inferenz |
|---|---|---|
| Ziel | Modell lernt | Modell wird angewendet |
| Häufigkeit | Einmalig/selten | Millionenfach |
| Kosten | Sehr hoch (einmalig) | Gering (pro Anfrage) |
| Hardware | Viele GPUs | Weniger GPUs/CPUs |
| Geschwindigkeit | Stunden-Monate | Millisekunden-Sekunden |
Bei LLMs besteht Inferenz aus zwei Phasen:
1. Prefill (Prompt-Verarbeitung):
2. Decode (Token-Generierung):
Wenn Training das Studium ist, dann ist Inferenz die Prüfung: Das Modell wendet sein gelerntes Wissen auf neue, unbekannte Aufgaben an.
Die Phase, in der ein trainiertes Modell Vorhersagen für neue Eingaben trifft
Muss schnell und kosteneffizient sein, da sie bei jeder Nutzeranfrage ausgeführt wird
Optimierungen: Quantisierung, Batching, KV-Cache, Speculative Decoding
ChatGPT-Antworten
Jede Antwort von ChatGPT ist ein Inferenz-Vorgang des GPT-Modells
Echtzeit-Bilderkennung
Gesichtserkennung auf dem Smartphone in Millisekunden
Empfehlungssysteme
Personalisierte Vorschläge in Echtzeit bei Netflix oder Spotify
Training: Das Modell lernt aus Daten (teuer, langsam, einmalig). Inferenz: Das trainierte Modell wird angewendet (günstig pro Anfrage, schnell, millionenfach). Training passt Gewichte an, Inferenz nutzt sie nur.
Nutzer erwarten schnelle Antworten. Bei LLMs bestimmt die Inferenz-Geschwindigkeit, wie schnell Tokens generiert werden (Tokens/Sekunde). Langsame Inferenz = schlechte Nutzererfahrung und hohe Kosten.
Bei API-Anbietern: pro Token (z.B. $2–10/1M Tokens bei GPT-5). Selbst gehostet: GPU-Kosten ($1-10/Stunde). Optimierungen wie Quantisierung und Batching senken die Kosten erheblich.