Nucleus Sampling: Kreative und kontrollierte Textgenerierung

ERKLÄRUNG

Einfach erklärt

Nucleus Sampling löst ein Problem der Textgenerierung: Wie wählt das Modell das nächste Wort?

Das Problem mit den Alternativen:

Greedy: Nimmt immer das wahrscheinlichste Token → repetitiv, langweilig
Top-k: Nimmt die Top-k Tokens → starr, ignoriert den Kontext
Vollständiges Sampling: Alle Tokens → manchmal unsinnige Wörter

Nucleus Sampling (Top-p) als Lösung:

Kontext: "Die Hauptstadt von Frankreich ist ___"

Token-Wahrscheinlichkeiten:
  Paris:      0.92
  die:        0.03
  eine:       0.02
  bekanntlich: 0.01
  ...         0.02

Top-p = 0.95 → Kandidatenpool: {Paris (0.92), die (0.03)}
→ Fast immer "Paris", aber nicht zu 100 % deterministisch

Adaptivität in Aktion:

Kontext: "Mein Lieblings___"

Token-Wahrscheinlichkeiten:
  essen:    0.15
  film:     0.12
  buch:     0.11
  tier:     0.10
  sport:    0.09
  ...

Top-p = 0.95 → Kandidatenpool: ~15 Tokens
→ Viel mehr Variation, weil der Kontext mehrdeutig ist

Technischer Deep Dive

Algorithmus

def nucleus_sampling(logits, p=0.9, temperature=1.0):
    # 1. Temperatur anwenden
    scaled = logits / temperature
    probs = softmax(scaled)
    
    # 2. Absteigend sortieren
    sorted_probs, sorted_indices = sort(probs, descending=True)
    
    # 3. Kumulative Summe berechnen
    cumsum = cumulative_sum(sorted_probs)
    
    # 4. Alles über Schwellenwert p maskieren
    mask = cumsum - sorted_probs > p
    sorted_probs[mask] = 0
    
    # 5. Neu normalisieren und samplen
    sorted_probs = sorted_probs / sum(sorted_probs)
    return sample(sorted_indices, sorted_probs)

Vergleich der Strategien

Strategie	Pool-Größe	Adaptiv	Kreativität	Standard für
Greedy	1	Nein	Keine	Übersetzung
Top-k	k (fix)	Nein	Mittel	Ältere Modelle
Top-p	Variabel	Ja	Hoch	Chat-LLMs
Beam Search	k Beams	Nein	Keine	Summarization

ANALOGIE

Nucleus Sampling ist wie ein DJ, der nur die besten Songs einer Playlist spielt: Statt aus allen 10.000 Songs zufällig zu wählen, nimmt er die Top-Songs, die zusammen 90 % der Hörer-Beliebtheit ausmachen – und wählt dann zufällig daraus.

WICHTIGSTE PUNKTE

Dynamischer Kandidatenpool: Nur Tokens bis zur kumulativen Wahrscheinlichkeit p

Adaptiv: Bei klarem Kontext wenige Kandidaten, bei Mehrdeutigkeit viele

Standard-Methode für ChatGPT, Claude und die meisten Chat-LLMs

ANWENDUNGSFÄLLE

Chat-Anwendungen

Natürliche, nicht-repetitive Konversationen generieren

Kreatives Schreiben

Diverse Texte mit kontrollierbarer Kreativität erzeugen

Code-Generierung

Korrekte Code-Vorschläge mit leichter Variation

HÄUFIGE FRAGEN

Was ist der Unterschied zwischen Top-p und Top-k?

Top-k wählt immer exakt k Kandidaten (z. B. die Top 50 Tokens). Top-p wählt dynamisch so viele Tokens, bis die kumulative Wahrscheinlichkeit p erreicht ist. Top-p passt sich daher besser an den Kontext an.

Sollte ich Temperatur und Top-p gleichzeitig ändern?

OpenAI empfiehlt, nur einen der beiden Parameter anzupassen und den anderen auf dem Standardwert zu lassen. Beide gleichzeitig zu ändern kann zu unvorhersehbaren Ergebnissen führen.

Welcher Top-p-Wert ist empfehlenswert?

Für die meisten Anwendungen: 0.9–0.95. Für kreative Texte: 0.95–1.0. Für faktische/technische Antworten: 0.7–0.85. Der Standardwert bei den meisten APIs ist 1.0 (alle Tokens berücksichtigt).

TOOLS & RESSOURCEN

Hugging Face Transformers

Implementierung aller Sampling-Strategien inkl. Nucleus Sampling

OpenAI API

top_p Parameter in allen Chat-Modellen

VERWANDTE BEGRIFFE

LLM Praxis

Top-p (Nucleus Sampling)

Eine Sampling-Methode bei der Textgenerierung, die nur die wahrscheinlichsten Tokens berücksichtigt, deren kumulative Wahrscheinlichkeit einen Schwellenwert p erreicht.

LLM Praxis

Temperatur

Ein Parameter bei der Textgenerierung, der steuert, wie kreativ oder deterministisch die Ausgabe eines Sprachmodells ist.

LLM Architektur

Beam Search

Ein Decoding-Algorithmus für LLMs, der mehrere Kandidaten-Sequenzen parallel verfolgt und die wahrscheinlichste Gesamtsequenz auswählt – besser als Greedy, aber rechenintensiver.

LLM Architektur

Greedy Decoding

Die einfachste Decoding-Strategie für LLMs – wählt bei jedem Schritt das wahrscheinlichste Token. Schnell und deterministisch, aber oft nicht optimal.

LLM Grundlagen

Logits

Die rohen, unnormalisierten Ausgabewerte eines neuronalen Netzes, bevor sie durch Softmax in Wahrscheinlichkeiten umgewandelt werden.

Grundlagen Architektur

Softmax

Eine mathematische Funktion, die einen Vektor von Zahlen in eine Wahrscheinlichkeitsverteilung umwandelt – zentral für Klassifikation und Attention in neuronalen Netzen.

Nucleus Sampling (Top-p Sampling)