Gradient Descent
Der fundamentale Optimierungsalgorithmus im Machine Learning, der die Parameter eines Modells schrittweise anpasst, um den Fehler zu minimieren.
Eine mathematische Funktion, die misst, wie weit die Vorhersage eines Modells von der tatsächlichen Antwort entfernt ist – das zentrale Optimierungsziel beim Training.
Die Loss Function (Verlustfunktion) ist das Maß dafür, wie schlecht ein Modell gerade ist. Das Ziel des Trainings: diesen Wert so klein wie möglich machen. Ohne Loss Function gibt es kein Lernen – sie ist das Signal, das dem Modell sagt, in welche Richtung es sich verbessern soll.
Die Wahl der richtigen Loss Function ist entscheidend und hängt von der Aufgabe ab. Für Regression (Zahlen vorhersagen) wird oft Mean Squared Error verwendet. Für Klassifikation Cross-Entropy Loss. Für LLMs ist es typischerweise der negative Log-Likelihood der nächsten Token-Vorhersage. Eine falsch gewählte Loss Function führt dazu, dass das Modell das Falsche optimiert – es minimiert die Loss, aber löst nicht das eigentliche Problem. Das nennt sich “Goodhart’s Law” in der KI.
Die wichtigsten Loss Functions:
| Loss Function | Aufgabe | Formel (vereinfacht) |
|---|---|---|
| MSE (Mean Squared Error) | Regression | Durchschnitt der quadrierten Fehler |
| Cross-Entropy | Klassifikation | -log(vorhergesagte Wahrscheinlichkeit) |
| Binary Cross-Entropy | Binäre Klassifikation | Spezialfall für 2 Klassen |
| Huber Loss | Robuste Regression | Kombination aus MSE und MAE |
Der Trainingsprozess:
Standard für Klassifikation und LLMs:
Loss = -Σ y_true * log(y_pred)
Bei LLMs: Für jedes Token wird die Cross-Entropy zwischen der vorhergesagten Token-Wahrscheinlichkeit und dem tatsächlichen nächsten Token berechnet. Perplexity = e^(Loss) ist die übliche Metrik.
Die Loss Function ist wie die Punkteanzeige bei einem Dartspiel: Sie zeigt dir, wie weit du vom Bullseye entfernt bist. Je niedriger der Wert, desto besser triffst du.
Quantifiziert den Fehler zwischen Modellvorhersage und tatsächlichem Ergebnis
Das Training minimiert die Loss Function durch Anpassung der Parameter
Verschiedene Aufgaben erfordern verschiedene Loss Functions
Klassifikation
Cross-Entropy Loss misst, wie gut ein Modell Kategorien vorhersagt
Regression
Mean Squared Error misst die Abweichung bei Zahlenwert-Vorhersagen
Textgenerierung
LLMs nutzen Cross-Entropy Loss für die Next-Token-Prediction
Mögliche Ursachen: Learning Rate zu hoch oder zu niedrig, fehlerhafte Daten, zu einfaches Modell, Bug im Code. Erste Maßnahme: Learning Rate anpassen und Daten prüfen.
Die Loss Function wird für die Optimierung (Gradient Descent) genutzt und muss differenzierbar sein. Metriken wie Accuracy oder F1-Score dienen der menschlichen Evaluation und müssen nicht differenzierbar sein.
Es gibt verschiedene Arten von Loss Functions, darunter Mean Squared Error für Regression, Cross-Entropy für Klassifikation und Hinge Loss für Support Vector Machines. Die Wahl der richtigen Loss Function hängt von der spezifischen Aufgabe und den Daten ab.
Die Wahl der Loss Function hat einen direkten Einfluss auf die Lernkurve und die Konvergenzgeschwindigkeit eines Modells. Eine ungeeignete Loss Function kann zu schlechten Ergebnissen führen, weshalb es wichtig ist, sie sorgfältig auszuwählen und gegebenenfalls anzupassen.