Logits: Rohwerte neuronaler Netze vor der Normalisierung

ERKLÄRUNG

Einfach erklärt

Logits sind die “Rohwerte”, die ein Sprachmodell für jedes mögliche nächste Token berechnet. Sie zeigen, wie “überzeugt” das Modell von jedem Token ist – bevor daraus Wahrscheinlichkeiten werden.

Warum sind Logits wichtig?

Temperatur wirkt auf die Logits: Hohe Temperatur = mehr Zufallsvariation
Confidence Scoring: Logits zeigen, wie sicher das Modell ist
Custom Sampling: Eigene Strategien basierend auf Logits implementieren

Der Ablauf:

Eingabe → Modell → Logits → Temperatur → Softmax → Wahrscheinlichkeiten → Sampling → Token
                   [2.5]      [/T]        [→]        [0.45]                  [→]     "Katze"
                   [1.8]                              [0.30]
                   [0.3]                              [0.15]
                   [-1.2]                             [0.10]

Unterschied zu Wahrscheinlichkeiten: Logits können beliebige Zahlen sein (auch negativ). Erst die Softmax-Funktion wandelt sie in Wahrscheinlichkeiten (0-1, Summe = 1) um.

Technischer Deep Dive

Softmax-Funktion

P(token_i) = exp(logit_i) / Σ_j exp(logit_j)

Wandelt beliebige Zahlenwerte in eine Wahrscheinlichkeitsverteilung um (alle positiv, Summe = 1).

Logit Bias

Einige APIs erlauben “Logit Bias” – die manuelle Anpassung von Logits für bestimmte Tokens:

Positive Werte: Token wird wahrscheinlicher
Negative Werte: Token wird unwahrscheinlicher
-100: Token wird praktisch ausgeschlossen

Log-Probabilities

OpenAI gibt optional logprobs zurück – die logarithmierten Wahrscheinlichkeiten der Top-Tokens. Nützlich für:

Confidence-Messung der Antwort
Erkennung unsicherer Stellen
Evaluation der Modellqualität

Temperatur-Einfluss auf Logits

Logits:        [2.5, 1.8, 0.3, -1.2]

Temperatur 0.5 (Logits / 0.5 = schärfer):
-> [5.0, 3.6, 0.6, -2.4] → Wahrscheinlichkeiten: [0.72, 0.24, 0.03, 0.01]

Temperatur 2.0 (Logits / 2.0 = flacher):
-> [1.25, 0.9, 0.15, -0.6] → Wahrscheinlichkeiten: [0.38, 0.32, 0.22, 0.08]

Niedrige Temperatur → das wahrscheinlichste Token dominiert stark. Hohe Temperatur → auch unwahrscheinliche Tokens bekommen eine Chance.

Praxis: Logits für Halluzinationserkennung

Wenn ein Modell eine Antwort mit niedrigen logprobs generiert (z. B. unter -3.0), ist das ein Signal für Unsicherheit. Automatisierte Systeme können solche Stellen markieren oder zur Verifikation flaggen.

ANALOGIE

Logits sind wie die Rohpunktzahl in einer Prüfung, bevor sie in eine Note umgerechnet wird. Die Rohpunkte zeigen die relative Stärke, aber erst die Umrechnung (Softmax) macht sie vergleichbar.

WICHTIGSTE PUNKTE

Rohe Ausgabewerte des Modells vor der Wahrscheinlichkeitsberechnung

Werden durch Softmax in Wahrscheinlichkeiten (0-1) umgewandelt

Temperatur und Top-p wirken auf die Logits, bevor Tokens ausgewählt werden

ANWENDUNGSFÄLLE

Confidence Scoring

Logits zeigen, wie sicher das Modell bei seiner Vorhersage ist

Token-Analyse

Untersuchung, welche Tokens das Modell in Betracht zieht

Custom Sampling

Eigene Sampling-Strategien basierend auf den rohen Logits implementieren

HÄUFIGE FRAGEN

Was ist der Unterschied zwischen Logits und Wahrscheinlichkeiten?

Logits sind rohe Zahlenwerte (können negativ sein, beliebig groß). Wahrscheinlichkeiten sind normalisiert (0-1, Summe = 1). Die Softmax-Funktion wandelt Logits in Wahrscheinlichkeiten um.

Warum sind Logits wichtig?

Sie sind die Grundlage für alle Sampling-Strategien. Temperatur, Top-p und Top-k wirken auf die Logits. Außerdem können Logits für Confidence Scoring und Halluzinationserkennung genutzt werden.

Wie interpretiere ich Logits in einem Klassifizierungsmodell?

Logits sind die rohen Ausgabewerte eines Modells und können direkt als Indikatoren für die Zugehörigkeit zu einer Klasse interpretiert werden. Höhere Logits deuten auf eine höhere Wahrscheinlichkeit für die entsprechende Klasse hin, müssen jedoch durch Softmax normalisiert werden, um Wahrscheinlichkeiten zu erhalten.

Können Logits negative Werte annehmen?

Ja, Logits können negative Werte annehmen, da sie nicht auf einen bestimmten Bereich beschränkt sind. Die Umwandlung in Wahrscheinlichkeiten erfolgt erst durch die Anwendung der Softmax-Funktion, die alle Logits in den Bereich von 0 bis 1 transformiert.

TOOLS & RESSOURCEN

OpenAI API (logprobs)

Gibt Log-Wahrscheinlichkeiten der Top-Tokens zurück

Hugging Face Transformers

Direkter Zugriff auf Logits bei lokalen Modellen

VERWANDTE BEGRIFFE

LLM Praxis

Temperatur

Ein Parameter bei der Textgenerierung, der steuert, wie kreativ oder deterministisch die Ausgabe eines Sprachmodells ist.

LLM Praxis

Top-p (Nucleus Sampling)

Eine Sampling-Methode bei der Textgenerierung, die nur die wahrscheinlichsten Tokens berücksichtigt, deren kumulative Wahrscheinlichkeit einen Schwellenwert p erreicht.

Grundlagen LLM

Tokens

Die kleinsten Texteinheiten, in die ein Sprachmodell Text zerlegt – Wörter, Wortteile oder einzelne Zeichen, die das Modell verarbeiten kann.

LLM Grundlagen

Large Language Model (LLM)

Ein KI-Modell, das auf riesigen Textmengen trainiert wurde und menschenähnliche Sprache verstehen und generieren kann.

Grundlagen

Inferenz

Die Anwendung eines trainierten KI-Modells auf neue Daten, um Vorhersagen oder Ausgaben zu generieren – der produktive Einsatz nach dem Training.