<EbeneX/>
Grundlagen Grundlagen · Updated 11. März 2026

ReLU und GELU

Definition

Die wichtigsten Aktivierungsfunktionen für neuronale Netze – ReLU für Effizienz, GELU für Transformer und moderne Architekturen.

Fortgeschritten 1 Min. Lesezeit EN: Rectified Linear Unit / Gaussian Error Linear Unit

Einfach erklärt

ReLU und GELU sind Aktivierungsfunktionen – sie entscheiden, wie stark ein Neuron “feuert”.

ReLU: f(x) = max(0, x)

    y │      /
      │     /
      │    /
    0 │───●

      └─────────────
          0    x

GELU: f(x) = x × Φ(x)  (Φ = Normalverteilung CDF)

    y │       _/
      │     _/
      │   _/
    0 │__/

      └─────────────
          0    x

Technischer Deep Dive

Implementation

import numpy as np

def relu(x):
    return np.maximum(0, x)

def gelu(x):
    # Approximation (schneller)
    return 0.5 * x * (1 + np.tanh(np.sqrt(2/np.pi) * (x + 0.044715 * x**3)))

# PyTorch
import torch.nn.functional as F
F.relu(x)
F.gelu(x)

Vergleich

FunktionFormelVorteileNachteile
ReLUmax(0,x)Schnell, einfachDying ReLU
Leaky ReLUmax(0.01x, x)Kein DyingHyperparameter
GELUx×Φ(x)Smooth, beste PerformanceLangsamer
SiLU/Swishx×σ(x)Smooth, selbst-gatedLangsamer

ReLU ist wie ein Türsteher: Negative Werte werden abgewiesen (0), positive dürfen durch. GELU ist ein freundlicherer Türsteher: Kleine negative Werte haben noch eine Chance.

ReLU: max(0, x) – einfach und effizient

GELU: x × Φ(x) – smooth, Standard in Transformern

Lösen das Vanishing Gradient Problem von Sigmoid

CNNs

ReLU ist Standard in Convolutional Networks

Transformer/LLMs

GELU ist Standard (GPT, BERT)

Tiefe Netze

Ermöglichen Training sehr tiefer Architekturen

Warum GELU statt ReLU in Transformern?

GELU ist smooth (differenzierbar überall), hat bessere Gradienten-Eigenschaften und performt empirisch besser in NLP.

Was ist das 'Dying ReLU' Problem?

Neuronen mit negativem Input haben Gradient 0 und lernen nie wieder. Leaky ReLU oder GELU vermeiden das.

Dein persönliches Share-Bild für Instagram – 1080×1080px, bereit zum Posten.