<EbeneX/>
Grundlagen · Updated 17. Februar 2026

Parameter

Definition

Die internen Zahlenwerte eines KI-Modells, die während des Trainings gelernt werden und das 'Wissen' des Modells repräsentieren.

Einsteiger 2 Min. Lesezeit EN: Parameters

Einfach erklärt

Parameter sind die lernbaren Zahlenwerte in einem KI-Modell – die Gewichte und Biases der neuronalen Netze. Sie sind das “Gedächtnis” des Modells: Alles, was das Modell aus den Trainingsdaten gelernt hat, ist in diesen Zahlen kodiert. GPT-5 hat schätzungsweise über 1 Billion Parameter. Llama 4 Maverick hat 400 Milliarden (MoE). Die Anzahl der Parameter ist ein grober Indikator für die Kapazität eines Modells – aber nicht der einzige: Trainingsqualität, Datenmenge und Architektur sind genauso wichtig.

Parameter sind die Zahlenwerte, die ein KI-Modell während des Trainings lernt. Sie sind das “Gedächtnis” des Modells – die Summe aller gelernten Muster und Zusammenhänge.

Beispiel: Bei einer einfachen linearen Regression y = mx + b sind m (Steigung) und b (Achsenabschnitt) die Parameter. Bei einem LLM sind es Milliarden solcher Werte in den Gewichtsmatrizen des neuronalen Netzes.

Größenordnungen:

ModellParameterSpeicher (FP16)
BERT-base110M~220 MB
Llama 4 Scout17B aktiv (MoE)~34 GB
Mistral Large 341B aktiv / 675B total~82 GB (aktiv)
GPT-5 (geschätzt)1T+~2 TB+

Technischer Deep Dive

Arten von Parametern

  • Gewichte (Weights): Multiplikatoren in den Matrixoperationen
  • Biases: Verschiebungswerte, die zu den Gewichten addiert werden
  • Embedding-Matrizen: Vektoren für Token-Repräsentationen
  • Attention-Parameter: Q, K, V Projektionsmatrizen

Initialisierung

Parameter werden vor dem Training initialisiert:

  • Xavier/Glorot: Standard für Sigmoid/Tanh-Aktivierungen
  • He/Kaiming: Optimiert für ReLU-Aktivierungen
  • Zufällig: Kleine Zufallswerte um 0

Schlechte Initialisierung kann das Training komplett verhindern (Vanishing/Exploding Gradients).

Parameterzahl berechnen

Für einen Transformer-Block:

  • Self-Attention: 4 × d² (Q, K, V, Output-Projektion)
  • Feed-Forward: 2 × d × 4d = 8d²
  • Gesamt pro Block: ~12d²
  • Gesamtmodell: ~12 × d² × N_layers + Vocab × d

Parameter sind wie die Synapsenverbindungen im Gehirn: Jede Verbindung hat eine bestimmte Stärke, und die Gesamtheit aller Verbindungsstärken bestimmt, was das Gehirn (oder Modell) kann.

Werden automatisch während des Trainings durch den Algorithmus gelernt

Die Anzahl der Parameter bestimmt die Kapazität und Größe eines Modells

Moderne LLMs haben Milliarden bis Billionen Parameter

Modellvergleich

Die Parameterzahl dient als grober Indikator für die Leistungsfähigkeit eines Modells

Hardware-Planung

Die Parameterzahl bestimmt den Speicherbedarf für Training und Inferenz

Modellkompression

Quantisierung und Pruning reduzieren die effektive Parameterzahl

Was ist der Unterschied zwischen Parametern und Hyperparametern?

Parameter werden automatisch beim Training gelernt (z.B. Gewichte im Netz). Hyperparameter werden manuell vor dem Training festgelegt (z.B. Learning Rate, Anzahl Schichten). Parameter sind das Ergebnis, Hyperparameter die Einstellungen.

Sind mehr Parameter immer besser?

Nicht unbedingt. Mehr Parameter erhöhen die Kapazität, aber auch den Speicher- und Rechenbedarf. Kleinere, gut trainierte Modelle können größere übertreffen (z.B. Phi-3 von Microsoft). Die Datenqualität ist oft wichtiger.

Wie viel Speicher braucht ein Modell?

Faustregel: 1B Parameter ≈ 2 GB in FP16 (Half Precision) oder ≈ 4 GB in FP32. Ein 70B-Modell braucht also ca. 140 GB in FP16. Quantisierung (4-Bit) reduziert das auf ca. 35 GB.

Dein persönliches Share-Bild für Instagram – 1080×1080px, bereit zum Posten.