Temperatur
Ein Parameter bei der Textgenerierung, der steuert, wie kreativ oder deterministisch die Ausgabe eines Sprachmodells ist.
Eine Sampling-Methode bei der Textgenerierung, die nur die wahrscheinlichsten Tokens berücksichtigt, deren kumulative Wahrscheinlichkeit einen Schwellenwert p erreicht.
Top-p (auch Nucleus Sampling) ist eine Methode, die steuert, aus wie vielen Token-Kandidaten das Modell bei der Textgenerierung wählen darf.
Beispiel: Das Modell soll das nächste Wort nach “Der Hund” vorhersagen:
"bellt" → 40% Wahrscheinlichkeit
"rennt" → 25%
"schläft" → 15%
"frisst" → 10%
"tanzt" → 5%
"fliegt" → 3%
"singt" → 2%
Top-p passt sich dynamisch an den Kontext an:
Top-k hat immer eine feste Anzahl, was in eindeutigen Kontexten zu viele und in mehrdeutigen zu wenige Optionen bieten kann.
| Use Case | Top-p | Temperatur | Begründung |
|---|---|---|---|
| Fakten/Code | 0.1-0.3 | 0 | Nur beste Tokens, deterministisch |
| Allgemein | 0.9 | 0.7 | Guter Standard |
| Kreativ | 0.95 | 1.0 | Mehr Vielfalt |
| Brainstorming | 1.0 | 1.2 | Maximale Variation |
from openai import OpenAI
client = OpenAI()
# Faktisch/Deterministisch
response = client.chat.completions.create(
model="gpt-5",
messages=[{"role": "user", "content": "Was ist die Hauptstadt von Frankreich?"}],
temperature=0,
top_p=0.1
)
# Kreativ
response = client.chat.completions.create(
model="gpt-5",
messages=[{"role": "user", "content": "Schreibe ein Haiku über KI"}],
temperature=1.0,
top_p=0.95
)
Top-p ist wie ein Budget beim Einkaufen: Du nimmst die besten Produkte, bis dein Budget (p) aufgebraucht ist. Bei p=0.9 nimmst du die Top-Produkte, die zusammen 90% des Werts ausmachen.
Wählt aus den wahrscheinlichsten Tokens, deren kumulative Wahrscheinlichkeit ≤ p ist
Alternative zur Temperatur für die Steuerung der Ausgabe-Vielfalt
p=0.9 ist ein guter Standard – p=1.0 bedeutet keine Einschränkung
Kontrollierte Kreativität
Top-p=0.9 erlaubt Vielfalt, schließt aber sehr unwahrscheinliche Tokens aus
Deterministische Ausgabe
Top-p=0.1 beschränkt die Auswahl auf die allerbesten Tokens
API-Konfiguration
Feinsteuerung der Textgenerierung bei LLM-API-Aufrufen
Temperatur skaliert alle Wahrscheinlichkeiten (macht die Verteilung schärfer oder flacher). Top-p schneidet die Verteilung ab – nur Tokens innerhalb des Schwellenwerts werden berücksichtigt. Beide steuern die Vielfalt, aber auf unterschiedliche Weise.
Top-k wählt immer aus den k wahrscheinlichsten Tokens (feste Anzahl). Top-p passt die Anzahl dynamisch an – bei eindeutigen Kontexten weniger Tokens, bei mehrdeutigen mehr. Top-p ist daher flexibler.
Für die meisten Anwendungen reicht einer der beiden Parameter. OpenAI empfiehlt, nicht beide gleichzeitig stark zu verändern. Top-p ist intuitiver für die Kontrolle der Vielfalt.