Gradient Descent: Optimierung im Machine Learning

ERKLÄRUNG

Einfach erklärt

Gradient Descent ist der fundamentale Optimierungsalgorithmus, der das Training aller neuronalen Netze antreibt. Das Ziel: Die Parameter des Modells so anpassen, dass der Fehler (Loss) auf den Trainingsdaten minimiert wird. Der Algorithmus berechnet den Gradienten – die Richtung des steilsten Anstiegs der Loss-Funktion – und bewegt die Parameter in die entgegengesetzte Richtung. Schritt für Schritt, Iteration für Iteration, nähert sich das Modell einem Minimum.

Gradient Descent ist der Motor hinter dem Training von KI-Modellen. Er passt die Parameter Schritt für Schritt an, um den Fehler (Loss) zu minimieren.

Der Ablauf:

Berechne den Fehler (Loss) für aktuelle Parameter
Berechne den Gradienten (Richtung des steilsten Anstiegs)
Gehe einen Schritt in die entgegengesetzte Richtung (bergab)
Wiederhole, bis der Fehler minimal ist

Varianten:

Variante	Daten pro Schritt	Geschwindigkeit	Stabilität
Batch GD	Gesamter Datensatz	Langsam	Sehr stabil
SGD	1 Beispiel	Schnell	Instabil
Mini-Batch	16-512 Beispiele	Ausgewogen	Gut

Technischer Deep Dive

Update-Regel

θ_new = θ_old - η * ∇L(θ)

θ: Parameter
η: Learning Rate
∇L: Gradient der Loss Function

Moderne Optimizer

SGD mit Momentum: Fügt einen “Schwung”-Term hinzu, der über vergangene Gradienten mittelt. Hilft bei Plateaus und Sattelpunkten.

Adam (Adaptive Moment Estimation): Kombiniert Momentum mit adaptiver Learning Rate pro Parameter. Standard für die meisten Deep-Learning-Aufgaben.

AdamW: Adam mit korrektem Weight Decay (decoupled). Standard für Transformer-Training.

Herausforderungen

Lokale Minima: Gradient Descent kann in suboptimalen Lösungen stecken bleiben
Sattelpunkte: Gradienten nahe Null, obwohl kein Minimum erreicht ist
Vanishing/Exploding Gradients: Gradienten werden in tiefen Netzen zu klein oder zu groß
Learning Rate Wahl: Zu hoch → Divergenz, zu niedrig → zu langsam

Learning Rate Finder

Eine bewährte Methode zur Wahl der Learning Rate:

# PyTorch Lightning LR Finder
from pytorch_lightning.tuner import Tuner

tuner = Tuner(trainer)
lr_finder = tuner.lr_find(model, datamodule)
fig = lr_finder.plot(suggest=True)
model.learning_rate = lr_finder.suggestion()

Visualisierung: Loss Landscape

Loss
│
│     █
│    █ █
│   █   █
│  █     ███
│ █         ██
│█            ████  ← Lokales Minimum
│               ██████  ← Globales Minimum
└────────────────────────── Parameter

Optimizer-Vergleich

Optimizer	Vorteile	Nachteile	Typische LR
SGD	Einfach, gute Generalisierung	Langsam, sensitiv	0.01-0.1
SGD+Momentum	Schneller, überwindet Plateaus	Ein Hyperparameter mehr	0.01-0.1
Adam	Schnelle Konvergenz, adaptiv	Kann übergeneralisieren	1e-4 bis 3e-4
AdamW	Korrektes Weight Decay	-	1e-4 bis 3e-4

ANALOGIE

Gradient Descent ist wie ein Wanderer, der im Nebel den Weg ins Tal sucht: Er fühlt die Neigung des Bodens unter seinen Füßen und geht immer in die steilste Abwärtsrichtung – Schritt für Schritt, bis er den tiefsten Punkt erreicht.

WICHTIGSTE PUNKTE

Minimiert die Loss Function durch iterative Anpassung der Modellparameter

Folgt dem negativen Gradienten – der Richtung des steilsten Abstiegs

Varianten: SGD, Mini-Batch, Adam, AdamW – mit unterschiedlichen Eigenschaften

ANWENDUNGSFÄLLE

Neuronale Netze

Training aller neuronalen Netze basiert auf Gradient Descent

Lineare Modelle

Optimierung von linearer und logistischer Regression

LLM-Training

AdamW ist der Standard-Optimizer für das Training von Transformern

HÄUFIGE FRAGEN

Was ist ein Gradient?

Der Gradient ist ein Vektor, der die Richtung und Stärke der steilsten Steigung einer Funktion angibt. Beim Training zeigt er, wie die Loss Function auf Änderungen jedes Parameters reagiert. Wir gehen in die entgegengesetzte Richtung (bergab).

Was ist die Learning Rate?

Die Schrittgröße bei jedem Update. Zu groß: Das Modell springt über das Minimum hinweg. Zu klein: Training dauert ewig. Die Learning Rate ist der wichtigste Hyperparameter.

Was ist der Unterschied zwischen SGD und Adam?

SGD nutzt eine feste Learning Rate für alle Parameter. Adam passt die Learning Rate pro Parameter adaptiv an und nutzt Momentum. Adam konvergiert oft schneller, SGD kann aber bessere Endresultate liefern.

TOOLS & RESSOURCEN

PyTorch Optimizers

Implementierungen aller gängigen Gradient-Descent-Varianten

TensorBoard

Visualisierung des Trainingsverlaufs und der Gradienten

VERWANDTE BEGRIFFE

Grundlagen

Backpropagation

Der Algorithmus, der berechnet, wie stark jedes Gewicht in einem neuronalen Netz zum Gesamtfehler beiträgt – die Grundlage für das Training tiefer Netze.

Grundlagen

Loss Function

Eine mathematische Funktion, die misst, wie weit die Vorhersage eines Modells von der tatsächlichen Antwort entfernt ist – das zentrale Optimierungsziel beim Training.

Grundlagen

Parameter

Die internen Zahlenwerte eines KI-Modells, die während des Trainings gelernt werden und das 'Wissen' des Modells repräsentieren.

Grundlagen

Hyperparameter

Einstellungen, die vor dem Training eines KI-Modells manuell festgelegt werden und den Trainingsprozess steuern – im Gegensatz zu Parametern, die automatisch gelernt werden.

Grundlagen

Neuronales Netz

Ein von biologischen Gehirnen inspiriertes Rechenmodell, das aus vernetzten künstlichen Neuronen besteht und Muster in Daten erkennen kann.