<EbeneX/>
LLM Grundlagen · Updated 18. Februar 2026

Scaling Laws

Definition

Empirische Gesetzmäßigkeiten, die beschreiben, wie die Leistung von LLMs mit Modellgröße, Datenmenge und Rechenleistung skaliert – Grundlage für Trainings-Entscheidungen.

Experte 2 Min. Lesezeit EN: Scaling Laws

Einfach erklärt

Scaling Laws sind empirische Gesetzmäßigkeiten, die beschreiben, wie die Performance von LLMs mit mehr Parametern, mehr Trainingsdaten und mehr Rechenleistung wächst. Die bahnbrechenden Erkenntnisse von OpenAI (2020) und DeepMind (Chinchilla, 2022) zeigten: Die Verbesserung folgt vorhersehbaren Power Laws. Das ermöglicht es, die Performance eines Modells vorherzusagen, bevor es trainiert wird – und optimale Verhältnisse von Parametern zu Trainingsdaten zu berechnen.

Scaling Laws beschreiben, wie LLM-Performance mit Ressourcen wächst. Mehr Parameter, mehr Daten, mehr Compute → bessere Performance. Aber: Die Verbesserung folgt einem Power Law – jede Verdopplung bringt nur konstante Verbesserung.

Die Kernformel:

Loss ∝ 1 / (Parameter^α × Daten^β × Compute^γ)

α, β, γ ≈ 0.05-0.1 (je nach Studie)

Was bedeutet das praktisch?

Um den Loss um 10% zu senken, brauchst du etwa 10x mehr Ressourcen. Das erklärt, warum GPT-5 so viel teurer zu trainieren war als GPT-4.

Technischer Deep Dive

Die drei Skalierungsdimensionen

DimensionBeschreibungKosten
Parameter (N)Anzahl der ModellgewichteVRAM, Inferenz-Kosten
Daten (D)Anzahl der Trainings-TokensDaten-Beschaffung
Compute (C)FLOPs für TrainingGPU-Stunden

Chinchilla Scaling

Das Chinchilla-Paper zeigte: Optimale Skalierung bedeutet gleichermaßen Parameter und Daten erhöhen.

Optimal: Tokens ≈ 20 × Parameter

Beispiel:
- 7B Modell → 140B Tokens Training
- 70B Modell → 1.4T Tokens Training

Viele frühere Modelle (GPT-3, Gopher) waren “undertrained” – zu viele Parameter, zu wenig Training.

Emergent Abilities

Manche Fähigkeiten erscheinen plötzlich ab einer bestimmten Größe:

Modellgröße:  1B    10B    100B
Arithmetik:   ❌     ❌      ✅
CoT Reasoning: ❌     ❌      ✅

Diese “emergent abilities” sind schwer vorherzusagen und ein aktives Forschungsgebiet.

Praktische Implikationen

  • Für Training: Budget zwischen Modellgröße und Trainings-Tokens aufteilen
  • Für Inferenz: Kleinere, länger trainierte Modelle können effizienter sein
  • Für Forschung: Trends an kleinen Modellen testen, dann skalieren

Scaling Laws sind wie Wachstumskurven für Pflanzen: Mehr Wasser und Dünger (Compute, Daten) führt zu mehr Wachstum (bessere Performance), aber mit abnehmenden Erträgen – irgendwann bringt mehr Dünger kaum noch Verbesserung.

Performance skaliert vorhersagbar mit Modellgröße, Daten und Compute

Power-Law-Beziehung: Verdopplung der Ressourcen → konstante Verbesserung

Grundlage für Entscheidungen über Trainings-Budgets und Modellarchitekturen

Trainings-Planung

Vorhersage der benötigten Ressourcen für gewünschte Performance

Modell-Design

Optimale Balance zwischen Parametern und Trainingsdaten

Kosten-Nutzen-Analyse

Abschätzung, ob mehr Training sich lohnt

Werden LLMs unbegrenzt besser, wenn man sie größer macht?

Nein. Die Verbesserung folgt einem Power Law mit abnehmenden Erträgen. Außerdem gibt es praktische Grenzen: Verfügbare Daten, Compute-Kosten, Inferenz-Latenz. Und manche Fähigkeiten (z.B. Reasoning) skalieren anders als andere.

Was ist das Chinchilla-Optimum?

Die Erkenntnis, dass viele LLMs 'undertrained' waren: Für optimale Performance sollte man mehr Tokens trainieren, nicht nur mehr Parameter haben. Chinchilla (70B) schlug das größere Gopher (280B) durch mehr Training.

Gelten Scaling Laws für alle Aufgaben?

Für die meisten, aber nicht alle. Manche Fähigkeiten zeigen 'emergent behavior' – sie erscheinen plötzlich ab einer bestimmten Größe. Andere Aufgaben skalieren schlechter oder gar nicht.

Dein persönliches Share-Bild für Instagram – 1080×1080px, bereit zum Posten.