Gradient Clipping: Exploding Gradients verhindern

ERKLÄRUNG

Einfach erklärt

Gradient Clipping verhindert, dass Gradienten zu groß werden und das Training destabilisieren.

Ohne Clipping:
Gradient: [1000, -500, 2000]  → Gewichte explodieren!

Mit Clipping (max_norm=1):
Gradient: [0.45, -0.22, 0.89]  → Stabil, Richtung erhalten

Technischer Deep Dive

PyTorch Implementation

import torch

# Clip by Norm (empfohlen)
torch.nn.utils.clip_grad_norm_(model.parameters(), max_norm=1.0)

# Clip by Value
torch.nn.utils.clip_grad_value_(model.parameters(), clip_value=0.5)

# Training Loop
optimizer.zero_grad()
loss.backward()
torch.nn.utils.clip_grad_norm_(model.parameters(), max_norm=1.0)
optimizer.step()

Gradient Norm monitoren

def get_grad_norm(model):
    total_norm = 0
    for p in model.parameters():
        if p.grad is not None:
            total_norm += p.grad.data.norm(2).item() ** 2
    return total_norm ** 0.5

# Logging
grad_norm = get_grad_norm(model)
wandb.log({"grad_norm": grad_norm})

ANALOGIE

Gradient Clipping ist wie ein Tempolimit: Egal wie steil der Berg (Gradient), du fährst nie schneller als erlaubt. Das verhindert Unfälle (instabiles Training).

WICHTIGSTE PUNKTE

Begrenzt Gradienten auf maximalen Wert

Zwei Varianten: Clip by Value oder Clip by Norm

Essentiell für RNNs, LSTMs und Transformer-Training

ANWENDUNGSFÄLLE

RNN/LSTM Training

Verhindert Exploding Gradients bei langen Sequenzen

Transformer Training

Standard bei LLM-Training

Instabiles Training

Wenn Loss plötzlich explodiert

HÄUFIGE FRAGEN

Clip by Value vs. Clip by Norm?

By Value: Jeder Gradient einzeln begrenzt. By Norm: Gesamtnorm begrenzt, Richtung bleibt erhalten. Norm ist meist besser.

Welchen Clipping-Wert wählen?

Typisch 1.0 für Norm-Clipping. Zu klein = langsames Lernen. Zu groß = kein Effekt. Monitoring der Gradient-Norm hilft.

VERWANDTE BEGRIFFE

Grundlagen

Backpropagation

Der Algorithmus, der berechnet, wie stark jedes Gewicht in einem neuronalen Netz zum Gesamtfehler beiträgt – die Grundlage für das Training tiefer Netze.

Architektur LLM

Transformer

Eine revolutionäre neuronale Netzwerk-Architektur, die auf dem Attention-Mechanismus basiert und die Grundlage für moderne Sprachmodelle wie GPT und BERT bildet.