Backpropagation
Der Algorithmus, der berechnet, wie stark jedes Gewicht in einem neuronalen Netz zum Gesamtfehler beiträgt – die Grundlage für das Training tiefer Netze.
Der fundamentale Optimierungsalgorithmus im Machine Learning, der die Parameter eines Modells schrittweise anpasst, um den Fehler zu minimieren.
Gradient Descent ist der fundamentale Optimierungsalgorithmus, der das Training aller neuronalen Netze antreibt. Das Ziel: Die Parameter des Modells so anpassen, dass der Fehler (Loss) auf den Trainingsdaten minimiert wird. Der Algorithmus berechnet den Gradienten – die Richtung des steilsten Anstiegs der Loss-Funktion – und bewegt die Parameter in die entgegengesetzte Richtung. Schritt für Schritt, Iteration für Iteration, nähert sich das Modell einem Minimum.
Gradient Descent ist der Motor hinter dem Training von KI-Modellen. Er passt die Parameter Schritt für Schritt an, um den Fehler (Loss) zu minimieren.
Der Ablauf:
Varianten:
| Variante | Daten pro Schritt | Geschwindigkeit | Stabilität |
|---|---|---|---|
| Batch GD | Gesamter Datensatz | Langsam | Sehr stabil |
| SGD | 1 Beispiel | Schnell | Instabil |
| Mini-Batch | 16-512 Beispiele | Ausgewogen | Gut |
θ_new = θ_old - η * ∇L(θ)
SGD mit Momentum: Fügt einen “Schwung”-Term hinzu, der über vergangene Gradienten mittelt. Hilft bei Plateaus und Sattelpunkten.
Adam (Adaptive Moment Estimation): Kombiniert Momentum mit adaptiver Learning Rate pro Parameter. Standard für die meisten Deep-Learning-Aufgaben.
AdamW: Adam mit korrektem Weight Decay (decoupled). Standard für Transformer-Training.
Eine bewährte Methode zur Wahl der Learning Rate:
# PyTorch Lightning LR Finder
from pytorch_lightning.tuner import Tuner
tuner = Tuner(trainer)
lr_finder = tuner.lr_find(model, datamodule)
fig = lr_finder.plot(suggest=True)
model.learning_rate = lr_finder.suggestion()
Loss
│
│ █
│ █ █
│ █ █
│ █ ███
│ █ ██
│█ ████ ← Lokales Minimum
│ ██████ ← Globales Minimum
└────────────────────────── Parameter
| Optimizer | Vorteile | Nachteile | Typische LR |
|---|---|---|---|
| SGD | Einfach, gute Generalisierung | Langsam, sensitiv | 0.01-0.1 |
| SGD+Momentum | Schneller, überwindet Plateaus | Ein Hyperparameter mehr | 0.01-0.1 |
| Adam | Schnelle Konvergenz, adaptiv | Kann übergeneralisieren | 1e-4 bis 3e-4 |
| AdamW | Korrektes Weight Decay | - | 1e-4 bis 3e-4 |
Gradient Descent ist wie ein Wanderer, der im Nebel den Weg ins Tal sucht: Er fühlt die Neigung des Bodens unter seinen Füßen und geht immer in die steilste Abwärtsrichtung – Schritt für Schritt, bis er den tiefsten Punkt erreicht.
Minimiert die Loss Function durch iterative Anpassung der Modellparameter
Folgt dem negativen Gradienten – der Richtung des steilsten Abstiegs
Varianten: SGD, Mini-Batch, Adam, AdamW – mit unterschiedlichen Eigenschaften
Neuronale Netze
Training aller neuronalen Netze basiert auf Gradient Descent
Lineare Modelle
Optimierung von linearer und logistischer Regression
LLM-Training
AdamW ist der Standard-Optimizer für das Training von Transformern
Der Gradient ist ein Vektor, der die Richtung und Stärke der steilsten Steigung einer Funktion angibt. Beim Training zeigt er, wie die Loss Function auf Änderungen jedes Parameters reagiert. Wir gehen in die entgegengesetzte Richtung (bergab).
Die Schrittgröße bei jedem Update. Zu groß: Das Modell springt über das Minimum hinweg. Zu klein: Training dauert ewig. Die Learning Rate ist der wichtigste Hyperparameter.
SGD nutzt eine feste Learning Rate für alle Parameter. Adam passt die Learning Rate pro Parameter adaptiv an und nutzt Momentum. Adam konvergiert oft schneller, SGD kann aber bessere Endresultate liefern.