Hyperparameter
Einstellungen, die vor dem Training eines KI-Modells manuell festgelegt werden und den Trainingsprozess steuern – im Gegensatz zu Parametern, die automatisch gelernt werden.
Die internen Zahlenwerte eines KI-Modells, die während des Trainings gelernt werden und das 'Wissen' des Modells repräsentieren.
Parameter sind die lernbaren Zahlenwerte in einem KI-Modell – die Gewichte und Biases der neuronalen Netze. Sie sind das “Gedächtnis” des Modells: Alles, was das Modell aus den Trainingsdaten gelernt hat, ist in diesen Zahlen kodiert. GPT-5 hat schätzungsweise über 1 Billion Parameter. Llama 4 Maverick hat 400 Milliarden (MoE). Die Anzahl der Parameter ist ein grober Indikator für die Kapazität eines Modells – aber nicht der einzige: Trainingsqualität, Datenmenge und Architektur sind genauso wichtig.
Parameter sind die Zahlenwerte, die ein KI-Modell während des Trainings lernt. Sie sind das “Gedächtnis” des Modells – die Summe aller gelernten Muster und Zusammenhänge.
Beispiel: Bei einer einfachen linearen Regression y = mx + b sind m (Steigung) und b (Achsenabschnitt) die Parameter. Bei einem LLM sind es Milliarden solcher Werte in den Gewichtsmatrizen des neuronalen Netzes.
Größenordnungen:
| Modell | Parameter | Speicher (FP16) |
|---|---|---|
| BERT-base | 110M | ~220 MB |
| Llama 4 Scout | 17B aktiv (MoE) | ~34 GB |
| Mistral Large 3 | 41B aktiv / 675B total | ~82 GB (aktiv) |
| GPT-5 (geschätzt) | 1T+ | ~2 TB+ |
Parameter werden vor dem Training initialisiert:
Schlechte Initialisierung kann das Training komplett verhindern (Vanishing/Exploding Gradients).
Für einen Transformer-Block:
Parameter sind wie die Synapsenverbindungen im Gehirn: Jede Verbindung hat eine bestimmte Stärke, und die Gesamtheit aller Verbindungsstärken bestimmt, was das Gehirn (oder Modell) kann.
Werden automatisch während des Trainings durch den Algorithmus gelernt
Die Anzahl der Parameter bestimmt die Kapazität und Größe eines Modells
Moderne LLMs haben Milliarden bis Billionen Parameter
Modellvergleich
Die Parameterzahl dient als grober Indikator für die Leistungsfähigkeit eines Modells
Hardware-Planung
Die Parameterzahl bestimmt den Speicherbedarf für Training und Inferenz
Modellkompression
Quantisierung und Pruning reduzieren die effektive Parameterzahl
Parameter werden automatisch beim Training gelernt (z.B. Gewichte im Netz). Hyperparameter werden manuell vor dem Training festgelegt (z.B. Learning Rate, Anzahl Schichten). Parameter sind das Ergebnis, Hyperparameter die Einstellungen.
Nicht unbedingt. Mehr Parameter erhöhen die Kapazität, aber auch den Speicher- und Rechenbedarf. Kleinere, gut trainierte Modelle können größere übertreffen (z.B. Phi-3 von Microsoft). Die Datenqualität ist oft wichtiger.
Faustregel: 1B Parameter ≈ 2 GB in FP16 (Half Precision) oder ≈ 4 GB in FP32. Ein 70B-Modell braucht also ca. 140 GB in FP16. Quantisierung (4-Bit) reduziert das auf ca. 35 GB.