<EbeneX/>
LLM Praxis · Updated 3. März 2026

Top-p (Nucleus Sampling)

Definition

Eine Sampling-Methode bei der Textgenerierung, die nur die wahrscheinlichsten Tokens berücksichtigt, deren kumulative Wahrscheinlichkeit einen Schwellenwert p erreicht.

Fortgeschritten 2 Min. Lesezeit EN: Top-p / Nucleus Sampling

Einfach erklärt

Top-p (auch Nucleus Sampling) ist eine Methode, die steuert, aus wie vielen Token-Kandidaten das Modell bei der Textgenerierung wählen darf.

Beispiel: Das Modell soll das nächste Wort nach “Der Hund” vorhersagen:

"bellt"   → 40% Wahrscheinlichkeit
"rennt"   → 25%
"schläft" → 15%
"frisst"  → 10%
"tanzt"   → 5%
"fliegt"  → 3%
"singt"   → 2%
  • Top-p = 0.8: Wählt aus schläft (kumulativ 80%)
  • Top-p = 0.95: Wählt aus tanzt (kumulativ 95%)
  • Top-p = 1.0: Alle Tokens möglich

Technischer Deep Dive

Algorithmus

  1. Sortiere Tokens nach Wahrscheinlichkeit (absteigend)
  2. Berechne kumulative Wahrscheinlichkeit
  3. Schneide ab, sobald die kumulative Wahrscheinlichkeit p überschreitet
  4. Normalisiere die verbleibenden Wahrscheinlichkeiten
  5. Sample aus der reduzierten Verteilung

Vorteile gegenüber Top-k

Top-p passt sich dynamisch an den Kontext an:

  • Bei eindeutigen Kontexten (z.B. “Die Hauptstadt von Frankreich ist”): Wenige Tokens im Nucleus
  • Bei mehrdeutigen Kontexten (z.B. “Heute möchte ich”): Viele Tokens im Nucleus

Top-k hat immer eine feste Anzahl, was in eindeutigen Kontexten zu viele und in mehrdeutigen zu wenige Optionen bieten kann.

Praktische Empfehlungen

Use CaseTop-pTemperaturBegründung
Fakten/Code0.1-0.30Nur beste Tokens, deterministisch
Allgemein0.90.7Guter Standard
Kreativ0.951.0Mehr Vielfalt
Brainstorming1.01.2Maximale Variation

Code-Beispiel (OpenAI API)

from openai import OpenAI

client = OpenAI()

# Faktisch/Deterministisch
response = client.chat.completions.create(
    model="gpt-5",
    messages=[{"role": "user", "content": "Was ist die Hauptstadt von Frankreich?"}],
    temperature=0,
    top_p=0.1
)

# Kreativ
response = client.chat.completions.create(
    model="gpt-5",
    messages=[{"role": "user", "content": "Schreibe ein Haiku über KI"}],
    temperature=1.0,
    top_p=0.95
)

Wichtige Hinweise

  • Nicht beide stark ändern: OpenAI empfiehlt, entweder Temperatur ODER Top-p anzupassen, nicht beide gleichzeitig extrem
  • Top-p=1.0: Keine Einschränkung, alle Tokens möglich (Temperatur bestimmt dann allein)
  • Top-p=0: Würde nur das wahrscheinlichste Token erlauben (praktisch nie verwendet)

Top-p ist wie ein Budget beim Einkaufen: Du nimmst die besten Produkte, bis dein Budget (p) aufgebraucht ist. Bei p=0.9 nimmst du die Top-Produkte, die zusammen 90% des Werts ausmachen.

Wählt aus den wahrscheinlichsten Tokens, deren kumulative Wahrscheinlichkeit ≤ p ist

Alternative zur Temperatur für die Steuerung der Ausgabe-Vielfalt

p=0.9 ist ein guter Standard – p=1.0 bedeutet keine Einschränkung

Kontrollierte Kreativität

Top-p=0.9 erlaubt Vielfalt, schließt aber sehr unwahrscheinliche Tokens aus

Deterministische Ausgabe

Top-p=0.1 beschränkt die Auswahl auf die allerbesten Tokens

API-Konfiguration

Feinsteuerung der Textgenerierung bei LLM-API-Aufrufen

Was ist der Unterschied zwischen Top-p und Temperatur?

Temperatur skaliert alle Wahrscheinlichkeiten (macht die Verteilung schärfer oder flacher). Top-p schneidet die Verteilung ab – nur Tokens innerhalb des Schwellenwerts werden berücksichtigt. Beide steuern die Vielfalt, aber auf unterschiedliche Weise.

Was ist Top-k im Vergleich zu Top-p?

Top-k wählt immer aus den k wahrscheinlichsten Tokens (feste Anzahl). Top-p passt die Anzahl dynamisch an – bei eindeutigen Kontexten weniger Tokens, bei mehrdeutigen mehr. Top-p ist daher flexibler.

Sollte ich Top-p oder Temperatur verwenden?

Für die meisten Anwendungen reicht einer der beiden Parameter. OpenAI empfiehlt, nicht beide gleichzeitig stark zu verändern. Top-p ist intuitiver für die Kontrolle der Vielfalt.

Dein persönliches Share-Bild für Instagram – 1080×1080px, bereit zum Posten.