<EbeneX/>
Grundlagen · Updated 3. März 2026

Gradient Descent

Definition

Der fundamentale Optimierungsalgorithmus im Machine Learning, der die Parameter eines Modells schrittweise anpasst, um den Fehler zu minimieren.

Fortgeschritten 3 Min. Lesezeit EN: Gradient Descent

Einfach erklärt

Gradient Descent ist der fundamentale Optimierungsalgorithmus, der das Training aller neuronalen Netze antreibt. Das Ziel: Die Parameter des Modells so anpassen, dass der Fehler (Loss) auf den Trainingsdaten minimiert wird. Der Algorithmus berechnet den Gradienten – die Richtung des steilsten Anstiegs der Loss-Funktion – und bewegt die Parameter in die entgegengesetzte Richtung. Schritt für Schritt, Iteration für Iteration, nähert sich das Modell einem Minimum.

Gradient Descent ist der Motor hinter dem Training von KI-Modellen. Er passt die Parameter Schritt für Schritt an, um den Fehler (Loss) zu minimieren.

Der Ablauf:

  1. Berechne den Fehler (Loss) für aktuelle Parameter
  2. Berechne den Gradienten (Richtung des steilsten Anstiegs)
  3. Gehe einen Schritt in die entgegengesetzte Richtung (bergab)
  4. Wiederhole, bis der Fehler minimal ist

Varianten:

VarianteDaten pro SchrittGeschwindigkeitStabilität
Batch GDGesamter DatensatzLangsamSehr stabil
SGD1 BeispielSchnellInstabil
Mini-Batch16-512 BeispieleAusgewogenGut

Technischer Deep Dive

Update-Regel

θ_new = θ_old - η * ∇L(θ)

Moderne Optimizer

SGD mit Momentum: Fügt einen “Schwung”-Term hinzu, der über vergangene Gradienten mittelt. Hilft bei Plateaus und Sattelpunkten.

Adam (Adaptive Moment Estimation): Kombiniert Momentum mit adaptiver Learning Rate pro Parameter. Standard für die meisten Deep-Learning-Aufgaben.

AdamW: Adam mit korrektem Weight Decay (decoupled). Standard für Transformer-Training.

Herausforderungen

  • Lokale Minima: Gradient Descent kann in suboptimalen Lösungen stecken bleiben
  • Sattelpunkte: Gradienten nahe Null, obwohl kein Minimum erreicht ist
  • Vanishing/Exploding Gradients: Gradienten werden in tiefen Netzen zu klein oder zu groß
  • Learning Rate Wahl: Zu hoch → Divergenz, zu niedrig → zu langsam

Learning Rate Finder

Eine bewährte Methode zur Wahl der Learning Rate:

# PyTorch Lightning LR Finder
from pytorch_lightning.tuner import Tuner

tuner = Tuner(trainer)
lr_finder = tuner.lr_find(model, datamodule)
fig = lr_finder.plot(suggest=True)
model.learning_rate = lr_finder.suggestion()

Visualisierung: Loss Landscape

Loss

│     █
│    █ █
│   █   █
│  █     ███
│ █         ██
│█            ████  ← Lokales Minimum
│               ██████  ← Globales Minimum
└────────────────────────── Parameter

Optimizer-Vergleich

OptimizerVorteileNachteileTypische LR
SGDEinfach, gute GeneralisierungLangsam, sensitiv0.01-0.1
SGD+MomentumSchneller, überwindet PlateausEin Hyperparameter mehr0.01-0.1
AdamSchnelle Konvergenz, adaptivKann übergeneralisieren1e-4 bis 3e-4
AdamWKorrektes Weight Decay-1e-4 bis 3e-4

Gradient Descent ist wie ein Wanderer, der im Nebel den Weg ins Tal sucht: Er fühlt die Neigung des Bodens unter seinen Füßen und geht immer in die steilste Abwärtsrichtung – Schritt für Schritt, bis er den tiefsten Punkt erreicht.

Minimiert die Loss Function durch iterative Anpassung der Modellparameter

Folgt dem negativen Gradienten – der Richtung des steilsten Abstiegs

Varianten: SGD, Mini-Batch, Adam, AdamW – mit unterschiedlichen Eigenschaften

Neuronale Netze

Training aller neuronalen Netze basiert auf Gradient Descent

Lineare Modelle

Optimierung von linearer und logistischer Regression

LLM-Training

AdamW ist der Standard-Optimizer für das Training von Transformern

Was ist ein Gradient?

Der Gradient ist ein Vektor, der die Richtung und Stärke der steilsten Steigung einer Funktion angibt. Beim Training zeigt er, wie die Loss Function auf Änderungen jedes Parameters reagiert. Wir gehen in die entgegengesetzte Richtung (bergab).

Was ist die Learning Rate?

Die Schrittgröße bei jedem Update. Zu groß: Das Modell springt über das Minimum hinweg. Zu klein: Training dauert ewig. Die Learning Rate ist der wichtigste Hyperparameter.

Was ist der Unterschied zwischen SGD und Adam?

SGD nutzt eine feste Learning Rate für alle Parameter. Adam passt die Learning Rate pro Parameter adaptiv an und nutzt Momentum. Adam konvergiert oft schneller, SGD kann aber bessere Endresultate liefern.

Dein persönliches Share-Bild für Instagram – 1080×1080px, bereit zum Posten.