Chain-of-Thought
Eine Prompting-Technik, bei der das Modell aufgefordert wird, Schritt für Schritt zu denken – verbessert die Reasoning-Fähigkeiten von LLMs dramatisch.
Eine Strategie, bei der KI-Modelle zur Inferenzzeit mehr Rechenkapazität nutzen, um durch längeres Nachdenken, Selbstkorrektur oder mehrfache Versuche bessere Ergebnisse zu erzielen.
Test-Time Compute (TTC) ist eine der wichtigsten Entwicklungen in der KI seit 2024. Die Idee: Statt ein Modell immer größer zu machen (mehr Parameter, mehr Training), lässt man es zur Anfragezeit länger nachdenken. Das Ergebnis sind Reasoning-Modelle wie OpenAI o1, o3 und DeepSeek R1, die bei komplexen Aufgaben dramatisch besser abschneiden als klassische LLMs.
Der Paradigmenwechsel ist fundamental: Bisher war die Qualität eines Modells durch seine Trainingszeit fixiert. Mit Test-Time Compute wird Qualität dynamisch – für eine einfache Frage reicht eine schnelle Antwort, für ein komplexes Mathe-Problem kann das Modell Minuten lang nachdenken, Lösungswege ausprobieren und sich selbst korrigieren.
Warum das wichtig ist:
- Training-Compute skaliert schlecht: Ein 10x größeres Modell kostet 10x mehr, wird aber nicht 10x besser
- Test-Time Compute skaliert besser: Mehr Denkzeit verbessert Reasoning-Aufgaben überproportional
- Reasoning-Modelle können für schwierige Aufgaben mehr Ressourcen einsetzen als für einfache
Chain-of-Thought (CoT): Das Modell denkt laut nach, bevor es antwortet. Jeder Denkschritt ist ein Token – mehr Tokens = mehr Rechenzeit = bessere Antworten.
Best-of-N Sampling: Das Modell generiert N verschiedene Antworten und wählt die beste aus – entweder durch ein Reward Model oder durch Mehrheitsentscheid.
Process Reward Models (PRM): Statt nur das Endergebnis zu bewerten, bewertet ein PRM jeden Denkschritt. Das Modell kann schlechte Gedankengänge frühzeitig verwerfen.
Monte Carlo Tree Search (MCTS): Aus der Spieltheorie adaptiert – das Modell exploriert einen Baum von möglichen Denkpfaden und wählt den vielversprechendsten.
Klassisches Scaling: Modellgröße ↑ → Performance ↑ (logarithmisch)
Test-Time Compute: Denkzeit ↑ → Performance ↑ (bei Reasoning-Tasks stark)
OpenAI o1 auf AIME 2024:
GPT-4o (ohne Thinking): 13% korrekt
o1: 83% korrekt (durch ~15x mehr Test-Time Compute)
| Aufgabentyp | TTC-Nutzen | Beispiel |
|---|---|---|
| Faktenfragen | Gering | ”Was ist die Hauptstadt von Frankreich?” |
| Kreatives Schreiben | Mittel | Gedicht schreiben |
| Mathematik | Sehr hoch | Olympiade-Aufgaben |
| Code-Debugging | Hoch | Komplexe Bugs finden |
| Logik-Rätsel | Sehr hoch | Mehrstufige Schlussfolgerungen |
Test-Time Compute ist wie ein Schachspieler, der mehr Zeit für schwierige Züge investiert: Statt sofort zu antworten, denkt das Modell länger nach, prüft verschiedene Lösungswege und korrigiert sich selbst – bevor es antwortet.
Verlagert Rechenaufwand vom Training zur Inferenz für bessere Ergebnisse
Basis für Reasoning-Modelle wie OpenAI o1/o3 und DeepSeek R1
Techniken: Chain-of-Thought, Best-of-N, Process Reward Models
Mathematik & Logik
Komplexe Rechenaufgaben durch schrittweises Denken lösen
Code-Generierung
Code schreiben, testen und iterativ verbessern
Wissenschaftliche Analyse
Mehrstufige Schlussfolgerungen bei Forschungsfragen
Strategische Planung
Komplexe Entscheidungen durch Exploration mehrerer Szenarien
Mehr Trainingszeit verbessert das Modell dauerhaft, ist aber teuer und einmalig. Test-Time Compute wird pro Anfrage eingesetzt – man kann für schwierige Fragen mehr Rechenzeit investieren als für einfache. Das macht KI adaptiv statt statisch.
Erheblich. OpenAI o1 löste deutlich mehr Mathematik-Olympiade-Aufgaben als GPT-4o – nicht durch ein größeres Modell, sondern durch längeres Nachdenken. Inzwischen ist Reasoning in GPT-5 Thinking integriert. Bei einfachen Aufgaben bringt es wenig; bei komplexen Reasoning-Aufgaben ist der Gewinn enorm.
Ja. Mehr Tokens generieren kostet mehr. Reasoning-Modelle wie o1 sind deshalb teurer pro Anfrage als Standard-Modelle. Aber für Aufgaben, die Genauigkeit erfordern, ist der Mehrpreis oft gerechtfertigt.