Top-p (Nucleus Sampling) einfach erklärt – Textgenerierung

ERKLÄRUNG

Einfach erklärt

Top-p (auch Nucleus Sampling) ist eine Methode, die steuert, aus wie vielen Token-Kandidaten das Modell bei der Textgenerierung wählen darf.

Beispiel: Das Modell soll das nächste Wort nach “Der Hund” vorhersagen:

"bellt"   → 40% Wahrscheinlichkeit
"rennt"   → 25%
"schläft" → 15%
"frisst"  → 10%
"tanzt"   → 5%
"fliegt"  → 3%
"singt"   → 2%

Top-p = 0.8: Wählt aus schläft (kumulativ 80%)
Top-p = 0.95: Wählt aus tanzt (kumulativ 95%)
Top-p = 1.0: Alle Tokens möglich

Technischer Deep Dive

Algorithmus

Sortiere Tokens nach Wahrscheinlichkeit (absteigend)
Berechne kumulative Wahrscheinlichkeit
Schneide ab, sobald die kumulative Wahrscheinlichkeit p überschreitet
Normalisiere die verbleibenden Wahrscheinlichkeiten
Sample aus der reduzierten Verteilung

Vorteile gegenüber Top-k

Top-p passt sich dynamisch an den Kontext an:

Bei eindeutigen Kontexten (z.B. “Die Hauptstadt von Frankreich ist”): Wenige Tokens im Nucleus
Bei mehrdeutigen Kontexten (z.B. “Heute möchte ich”): Viele Tokens im Nucleus

Top-k hat immer eine feste Anzahl, was in eindeutigen Kontexten zu viele und in mehrdeutigen zu wenige Optionen bieten kann.

Praktische Empfehlungen

Use Case	Top-p	Temperatur	Begründung
Fakten/Code	0.1-0.3	0	Nur beste Tokens, deterministisch
Allgemein	0.9	0.7	Guter Standard
Kreativ	0.95	1.0	Mehr Vielfalt
Brainstorming	1.0	1.2	Maximale Variation

Code-Beispiel (OpenAI API)

from openai import OpenAI

client = OpenAI()

# Faktisch/Deterministisch
response = client.chat.completions.create(
    model="gpt-5",
    messages=[{"role": "user", "content": "Was ist die Hauptstadt von Frankreich?"}],
    temperature=0,
    top_p=0.1
)

# Kreativ
response = client.chat.completions.create(
    model="gpt-5",
    messages=[{"role": "user", "content": "Schreibe ein Haiku über KI"}],
    temperature=1.0,
    top_p=0.95
)

Wichtige Hinweise

Nicht beide stark ändern: OpenAI empfiehlt, entweder Temperatur ODER Top-p anzupassen, nicht beide gleichzeitig extrem
Top-p=1.0: Keine Einschränkung, alle Tokens möglich (Temperatur bestimmt dann allein)
Top-p=0: Würde nur das wahrscheinlichste Token erlauben (praktisch nie verwendet)

ANALOGIE

Top-p ist wie ein Budget beim Einkaufen: Du nimmst die besten Produkte, bis dein Budget (p) aufgebraucht ist. Bei p=0.9 nimmst du die Top-Produkte, die zusammen 90% des Werts ausmachen.

WICHTIGSTE PUNKTE

Wählt aus den wahrscheinlichsten Tokens, deren kumulative Wahrscheinlichkeit ≤ p ist

Alternative zur Temperatur für die Steuerung der Ausgabe-Vielfalt

p=0.9 ist ein guter Standard – p=1.0 bedeutet keine Einschränkung

ANWENDUNGSFÄLLE

Kontrollierte Kreativität

Top-p=0.9 erlaubt Vielfalt, schließt aber sehr unwahrscheinliche Tokens aus

Deterministische Ausgabe

Top-p=0.1 beschränkt die Auswahl auf die allerbesten Tokens

API-Konfiguration

Feinsteuerung der Textgenerierung bei LLM-API-Aufrufen

HÄUFIGE FRAGEN

Was ist der Unterschied zwischen Top-p und Temperatur?

Temperatur skaliert alle Wahrscheinlichkeiten (macht die Verteilung schärfer oder flacher). Top-p schneidet die Verteilung ab – nur Tokens innerhalb des Schwellenwerts werden berücksichtigt. Beide steuern die Vielfalt, aber auf unterschiedliche Weise.

Was ist Top-k im Vergleich zu Top-p?

Top-k wählt immer aus den k wahrscheinlichsten Tokens (feste Anzahl). Top-p passt die Anzahl dynamisch an – bei eindeutigen Kontexten weniger Tokens, bei mehrdeutigen mehr. Top-p ist daher flexibler.

Sollte ich Top-p oder Temperatur verwenden?

Für die meisten Anwendungen reicht einer der beiden Parameter. OpenAI empfiehlt, nicht beide gleichzeitig stark zu verändern. Top-p ist intuitiver für die Kontrolle der Vielfalt.

TOOLS & RESSOURCEN

OpenAI API

top_p Parameter bei allen GPT-Modellen (0-1)

Hugging Face Transformers

top_p Sampling in der generate()-Methode

VERWANDTE BEGRIFFE

LLM Praxis

Temperatur

Ein Parameter bei der Textgenerierung, der steuert, wie kreativ oder deterministisch die Ausgabe eines Sprachmodells ist.

LLM Grundlagen

Logits

Die rohen, unnormalisierten Ausgabewerte eines neuronalen Netzes, bevor sie durch Softmax in Wahrscheinlichkeiten umgewandelt werden.

Grundlagen LLM

Tokens

Die kleinsten Texteinheiten, in die ein Sprachmodell Text zerlegt – Wörter, Wortteile oder einzelne Zeichen, die das Modell verarbeiten kann.

LLM Grundlagen

Large Language Model (LLM)

Ein KI-Modell, das auf riesigen Textmengen trainiert wurde und menschenähnliche Sprache verstehen und generieren kann.

Grundlagen

Inferenz

Die Anwendung eines trainierten KI-Modells auf neue Daten, um Vorhersagen oder Ausgaben zu generieren – der produktive Einsatz nach dem Training.