Test-Time Compute
Eine Strategie, bei der KI-Modelle zur Inferenzzeit mehr Rechenkapazität nutzen, um durch längeres Nachdenken, Selbstkorrektur oder mehrfache Versuche bessere Ergebnisse zu erzielen.
Eine neue Klasse von KI-Modellen, die komplexe Probleme durch explizites mehrstufiges Denken lösen – GPT-5 Thinking, Claude Opus 4.6 und DeepSeek R1 sind prominente Beispiele.
Reasoning-Modelle sind die wichtigste KI-Innovation seit dem GPT-Moment. Während klassische LLMs sofort antworten, nehmen sich Reasoning-Modelle Zeit zum Denken – sie generieren einen internen Denkprozess, bevor sie die finale Antwort ausgeben.
Das Ergebnis ist dramatisch: OpenAI o1 löste 83% der Aufgaben der American Invitational Mathematics Examination (AIME) – GPT-4o schaffte nur 13%. Nicht durch ein größeres Modell, sondern durch längeres Nachdenken. DeepSeek R1 zeigte 2025, dass dieses Prinzip auch Open-Source funktioniert. Inzwischen ist Reasoning in die Hauptmodelle integriert: GPT-5 hat Thinking eingebaut, Claude 4.6 nutzt Adaptive Thinking, Gemini 3 bietet Deep Think.
Was Reasoning-Modelle anders machen:
Reasoning-Modelle werden typischerweise mit RL auf verifizierbaren Aufgaben trainiert:
1. Modell generiert Denkprozess + Antwort
2. Antwort wird automatisch geprüft (Mathe: ist das Ergebnis korrekt?)
3. Korrekte Antworten → positive Belohnung
4. Falsche Antworten → negative Belohnung
5. Modell lernt, welche Denkstrategien zu richtigen Antworten führen
Das Modell entdeckt dabei selbstständig Strategien wie: Probleme in Teilprobleme zerlegen, Annahmen überprüfen, alternative Lösungswege ausprobieren.
| Modell | Anbieter | Open-Source | Stärken |
|---|---|---|---|
| GPT-5 Thinking | OpenAI | Nein | Integriertes Reasoning, alle Domänen |
| Claude Opus 4.6 | Anthropic | Nein | Adaptive Thinking, 68,8% ARC-AGI-2 |
| Claude Sonnet 4.6 | Anthropic | Nein | Reasoning zu Sonnet-Preis |
| Gemini 3 Deep Think | Nein | Stärkstes Mathe-Reasoning (91,9% GPQA) | |
| DeepSeek R1 | DeepSeek | Ja | Open-Source, starkes Reasoning |
Aufgabe erfordert mehrstufiges Denken?
Ja → Reasoning aktivieren (GPT-5 Thinking, Claude Extended Thinking)
Nein → Standard-Modus (GPT-5, Claude Sonnet 4.6)
Geschwindigkeit kritisch?
Ja → Standard-Modus oder GPT-5 mini
Nein → Volles Reasoning (Opus 4.6, GPT-5.2 Thinking)
Budget begrenzt?
Ja → DeepSeek R1 (Open-Source, günstig)
Nein → Claude Opus 4.6 oder GPT-5.2 Thinking Ein Reasoning-Modell ist wie ein Mathematiker, der nicht sofort die Antwort hinschreibt, sondern erst den Lösungsweg auf dem Schmierzettel durcharbeitet – und erst dann das Ergebnis präsentiert.
Generieren einen internen 'Denkprozess' (Chain-of-Thought) vor der Antwort
Deutlich besser bei Mathematik, Logik, Code und wissenschaftlichen Aufgaben
Nutzen Test-Time Compute: mehr Denkzeit = bessere Ergebnisse
Mathematik & Wissenschaft
Olympiade-Aufgaben, Beweise und wissenschaftliche Analysen
Software-Engineering
Komplexe Algorithmen entwerfen und debuggen
Strategische Planung
Mehrstufige Entscheidungen mit vielen Abhängigkeiten
Rechtliche Analyse
Komplexe Vertragsanalysen und juristische Schlussfolgerungen
Für komplexe Aufgaben, die mehrstufiges Denken erfordern: Mathematik, Logik, Code-Architektur, wissenschaftliche Analyse. Für einfache Aufgaben wie Textzusammenfassung oder Übersetzung sind Standard-LLMs schneller und günstiger.
Meist durch Reinforcement Learning mit Verifiable Rewards: Das Modell bekommt Belohnungen für korrekte Antworten bei Aufgaben mit objektiv prüfbaren Lösungen (Mathe, Code). Es lernt dadurch, Denkstrategien zu entwickeln, die zu richtigen Antworten führen.
Nein. Bei einfachen Aufgaben sind sie langsamer und teurer ohne Mehrwert. Sie können auch 'overthinking' zeigen – bei simplen Fragen unnötig komplizierte Denkprozesse starten. Der Einsatz sollte aufgabenabhängig sein.