<EbeneX/>
LLM Architektur · Updated 19. Februar 2026

Test-Time Compute

Definition

Eine Strategie, bei der KI-Modelle zur Inferenzzeit mehr Rechenkapazität nutzen, um durch längeres Nachdenken, Selbstkorrektur oder mehrfache Versuche bessere Ergebnisse zu erzielen.

Experte 2 Min. Lesezeit EN: Test-Time Compute (TTC) / Inference-Time Compute

Einfach erklärt

Test-Time Compute (TTC) ist eine der wichtigsten Entwicklungen in der KI seit 2024. Die Idee: Statt ein Modell immer größer zu machen (mehr Parameter, mehr Training), lässt man es zur Anfragezeit länger nachdenken. Das Ergebnis sind Reasoning-Modelle wie OpenAI o1, o3 und DeepSeek R1, die bei komplexen Aufgaben dramatisch besser abschneiden als klassische LLMs.

Der Paradigmenwechsel ist fundamental: Bisher war die Qualität eines Modells durch seine Trainingszeit fixiert. Mit Test-Time Compute wird Qualität dynamisch – für eine einfache Frage reicht eine schnelle Antwort, für ein komplexes Mathe-Problem kann das Modell Minuten lang nachdenken, Lösungswege ausprobieren und sich selbst korrigieren.

Warum das wichtig ist:

  • Training-Compute skaliert schlecht: Ein 10x größeres Modell kostet 10x mehr, wird aber nicht 10x besser
  • Test-Time Compute skaliert besser: Mehr Denkzeit verbessert Reasoning-Aufgaben überproportional
  • Reasoning-Modelle können für schwierige Aufgaben mehr Ressourcen einsetzen als für einfache

Technischer Deep Dive

Techniken für Test-Time Compute

Chain-of-Thought (CoT): Das Modell denkt laut nach, bevor es antwortet. Jeder Denkschritt ist ein Token – mehr Tokens = mehr Rechenzeit = bessere Antworten.

Best-of-N Sampling: Das Modell generiert N verschiedene Antworten und wählt die beste aus – entweder durch ein Reward Model oder durch Mehrheitsentscheid.

Process Reward Models (PRM): Statt nur das Endergebnis zu bewerten, bewertet ein PRM jeden Denkschritt. Das Modell kann schlechte Gedankengänge frühzeitig verwerfen.

Monte Carlo Tree Search (MCTS): Aus der Spieltheorie adaptiert – das Modell exploriert einen Baum von möglichen Denkpfaden und wählt den vielversprechendsten.

Skalierungsverhalten

Klassisches Scaling:     Modellgröße ↑ → Performance ↑ (logarithmisch)
Test-Time Compute:       Denkzeit ↑   → Performance ↑ (bei Reasoning-Tasks stark)

OpenAI o1 auf AIME 2024:
  GPT-4o (ohne Thinking): 13% korrekt
  o1:       83% korrekt (durch ~15x mehr Test-Time Compute)

Wann lohnt sich Test-Time Compute?

AufgabentypTTC-NutzenBeispiel
FaktenfragenGering”Was ist die Hauptstadt von Frankreich?”
Kreatives SchreibenMittelGedicht schreiben
MathematikSehr hochOlympiade-Aufgaben
Code-DebuggingHochKomplexe Bugs finden
Logik-RätselSehr hochMehrstufige Schlussfolgerungen

Test-Time Compute ist wie ein Schachspieler, der mehr Zeit für schwierige Züge investiert: Statt sofort zu antworten, denkt das Modell länger nach, prüft verschiedene Lösungswege und korrigiert sich selbst – bevor es antwortet.

Verlagert Rechenaufwand vom Training zur Inferenz für bessere Ergebnisse

Basis für Reasoning-Modelle wie OpenAI o1/o3 und DeepSeek R1

Techniken: Chain-of-Thought, Best-of-N, Process Reward Models

Mathematik & Logik

Komplexe Rechenaufgaben durch schrittweises Denken lösen

Code-Generierung

Code schreiben, testen und iterativ verbessern

Wissenschaftliche Analyse

Mehrstufige Schlussfolgerungen bei Forschungsfragen

Strategische Planung

Komplexe Entscheidungen durch Exploration mehrerer Szenarien

Was ist der Unterschied zwischen Test-Time Compute und mehr Trainingszeit?

Mehr Trainingszeit verbessert das Modell dauerhaft, ist aber teuer und einmalig. Test-Time Compute wird pro Anfrage eingesetzt – man kann für schwierige Fragen mehr Rechenzeit investieren als für einfache. Das macht KI adaptiv statt statisch.

Wie viel besser wird ein Modell durch Test-Time Compute?

Erheblich. OpenAI o1 löste deutlich mehr Mathematik-Olympiade-Aufgaben als GPT-4o – nicht durch ein größeres Modell, sondern durch längeres Nachdenken. Inzwischen ist Reasoning in GPT-5 Thinking integriert. Bei einfachen Aufgaben bringt es wenig; bei komplexen Reasoning-Aufgaben ist der Gewinn enorm.

Ist Test-Time Compute teurer?

Ja. Mehr Tokens generieren kostet mehr. Reasoning-Modelle wie o1 sind deshalb teurer pro Anfrage als Standard-Modelle. Aber für Aufgaben, die Genauigkeit erfordern, ist der Mehrpreis oft gerechtfertigt.

Dein persönliches Share-Bild für Instagram – 1080×1080px, bereit zum Posten.