Temperatur: Kreativität bei Textgenerierung steuern

ERKLÄRUNG

Einfach erklärt

Die Temperatur ist ein numerischer Parameter zwischen 0 und 2, der steuert, wie “mutig” ein Sprachmodell bei der Wahl des nächsten Wortes ist. Niedrige Werte machen das Modell präzise und vorhersehbar, hohe Werte machen es kreativer und überraschender – aber auch fehleranfälliger. Für faktische Aufgaben wie Code-Generierung empfiehlt sich 0.0–0.3, für kreatives Schreiben 0.7–1.0. Werte über 1.0 produzieren oft inkohärente Ausgaben und sind selten sinnvoll. Die Temperatur ist einer der wichtigsten Parameter beim Einsatz von LLMs – und einer der ersten, den man anpassen sollte, wenn die Ausgaben zu repetitiv oder zu chaotisch sind.

Die Temperatur steuert, wie “mutig” ein Sprachmodell bei der Wahl des nächsten Wortes ist.

Beispiel: Auf die Frage “Die Hauptstadt von Frankreich ist…”

Temperatur 0: “Paris” (immer die wahrscheinlichste Antwort)
Temperatur 0.5: “Paris” (meistens, gelegentlich Variationen in der Formulierung)
Temperatur 1.5: “Paris, die Stadt der Lichter und…” (kreativere, längere Antwort)

Temperatur	Verhalten	Ideal für
0	Deterministisch	Fakten, Code, Datenextraktion
0.3	Leicht variabel	Zusammenfassungen, Übersetzungen
0.7	Ausgewogen	Allgemeine Aufgaben, Chat
1.0	Kreativ	Kreatives Schreiben, Brainstorming
1.5+	Sehr kreativ/chaotisch	Experimentell, oft weniger kohärent

Technischer Deep Dive

Mathematische Wirkung

Die Temperatur T skaliert die Logits vor der Softmax-Funktion:

P(token_i) = exp(logit_i / T) / Σ exp(logit_j / T)

T < 1: Verteilung wird “schärfer” → wahrscheinliche Tokens werden noch wahrscheinlicher
T = 1: Originalverteilung des Modells
T > 1: Verteilung wird “flacher” → unwahrscheinliche Tokens bekommen mehr Chance

Zusammenspiel mit anderen Parametern

Top-p: Begrenzt die Auswahl auf die wahrscheinlichsten Tokens (kumulativ)
Top-k: Begrenzt auf die k wahrscheinlichsten Tokens
Frequency Penalty: Bestraft Wiederholungen
Presence Penalty: Fördert neue Themen

Visualisierung der Verteilung

Token-Wahrscheinlichkeiten für "Die Katze sitzt auf der ___"

         T=0.3 (scharf)    T=1.0 (normal)    T=2.0 (flach)
Matte    ████████████ 85%  ████████ 45%      ████ 25%
Couch    ██ 10%            ████ 25%          ███ 20%
Bank     █ 3%              ██ 15%            ███ 18%
Wolke    ░ 1%              █ 8%              ██ 15%
Mond     ░ 1%              █ 7%              ██ 12%

Code-Beispiel (OpenAI API)

from openai import OpenAI

client = OpenAI()

# Gleiche Frage, verschiedene Temperaturen
for temp in [0, 0.5, 1.0, 1.5]:
    response = client.chat.completions.create(
        model="gpt-5",
        messages=[{"role": "user", "content": "Nenne eine Farbe"}],
        temperature=temp,
        max_tokens=10
    )
    print(f"T={temp}: {response.choices[0].message.content}")

# Typische Ausgabe:
# T=0: Blau
# T=0.5: Blau
# T=1.0: Grün
# T=1.5: Koralle

Häufige Fehler

Temperatur zu hoch für Code: Führt zu Syntaxfehlern und erfundenen Funktionen
Temperatur 0 für Kreativität: Immer gleiche, langweilige Ausgaben
Temperatur ignorieren: Standardwert (oft 1.0) ist nicht für jeden Use Case optimal

ANALOGIE

Die Temperatur ist wie der Kreativitätsregler eines Autors: Bei niedriger Temperatur schreibt er vorhersehbar und präzise (Sachbuch), bei hoher Temperatur experimentell und überraschend (Lyrik).

WICHTIGSTE PUNKTE

Niedrige Temperatur (0-0.3): Deterministische, fokussierte Ausgaben

Hohe Temperatur (0.7-1.5): Kreativere, vielfältigere Ausgaben

Beeinflusst die Wahrscheinlichkeitsverteilung bei der Token-Auswahl

ANWENDUNGSFÄLLE

Faktische Antworten

Niedrige Temperatur (0-0.2) für präzise, konsistente Antworten bei Fakten-Fragen

Kreatives Schreiben

Höhere Temperatur (0.7-1.0) für abwechslungsreiche Texte und Ideen

Code-Generierung

Niedrige Temperatur (0-0.3) für korrekten, vorhersehbaren Code

Brainstorming

Hohe Temperatur (0.8-1.2) für vielfältige Ideen und unerwartete Vorschläge

HÄUFIGE FRAGEN

Was ist die beste Temperatur?

Es gibt keinen universell besten Wert. Für Fakten und Code: 0-0.3. Für allgemeine Aufgaben: 0.5-0.7. Für kreative Aufgaben: 0.7-1.0. Experimentiere mit deinem Use Case.

Was passiert bei Temperatur 0?

Das Modell wählt immer das wahrscheinlichste Token. Die Ausgabe ist (fast) deterministisch – gleiche Eingabe ergibt gleiche Ausgabe. Ideal für reproduzierbare Ergebnisse.

Kann man Temperatur und Top-p kombinieren?

Ja, aber OpenAI empfiehlt, nur einen der beiden Parameter zu ändern und den anderen auf dem Standardwert zu lassen, um unvorhersehbare Interaktionen zu vermeiden.

TOOLS & RESSOURCEN

OpenAI API

Temperature-Parameter bei allen GPT-Modellen einstellbar (0-2)

Anthropic API

Temperature-Parameter bei Claude-Modellen (0-1)

VERWANDTE BEGRIFFE

LLM Praxis

Top-p (Nucleus Sampling)

Eine Sampling-Methode bei der Textgenerierung, die nur die wahrscheinlichsten Tokens berücksichtigt, deren kumulative Wahrscheinlichkeit einen Schwellenwert p erreicht.

LLM Grundlagen

Logits

Die rohen, unnormalisierten Ausgabewerte eines neuronalen Netzes, bevor sie durch Softmax in Wahrscheinlichkeiten umgewandelt werden.

Grundlagen LLM

Tokens

Die kleinsten Texteinheiten, in die ein Sprachmodell Text zerlegt – Wörter, Wortteile oder einzelne Zeichen, die das Modell verarbeiten kann.

LLM Praxis

Prompt Engineering

Die Kunst und Technik, Anweisungen für KI-Sprachmodelle so zu formulieren, dass sie optimale und zielgerichtete Ergebnisse liefern.

LLM Grundlagen

Large Language Model (LLM)

Ein KI-Modell, das auf riesigen Textmengen trainiert wurde und menschenähnliche Sprache verstehen und generieren kann.