Scaling Laws: Wie LLMs mit Größe besser werden

ERKLÄRUNG

Einfach erklärt

Scaling Laws sind empirische Gesetzmäßigkeiten, die beschreiben, wie die Performance von LLMs mit mehr Parametern, mehr Trainingsdaten und mehr Rechenleistung wächst. Die bahnbrechenden Erkenntnisse von OpenAI (2020) und DeepMind (Chinchilla, 2022) zeigten: Die Verbesserung folgt vorhersehbaren Power Laws. Das ermöglicht es, die Performance eines Modells vorherzusagen, bevor es trainiert wird – und optimale Verhältnisse von Parametern zu Trainingsdaten zu berechnen.

Scaling Laws beschreiben, wie LLM-Performance mit Ressourcen wächst. Mehr Parameter, mehr Daten, mehr Compute → bessere Performance. Aber: Die Verbesserung folgt einem Power Law – jede Verdopplung bringt nur konstante Verbesserung.

Die Kernformel:

Loss ∝ 1 / (Parameter^α × Daten^β × Compute^γ)

α, β, γ ≈ 0.05-0.1 (je nach Studie)

Was bedeutet das praktisch?

Um den Loss um 10% zu senken, brauchst du etwa 10x mehr Ressourcen. Das erklärt, warum GPT-5 so viel teurer zu trainieren war als GPT-4.

Technischer Deep Dive

Die drei Skalierungsdimensionen

Dimension	Beschreibung	Kosten
Parameter (N)	Anzahl der Modellgewichte	VRAM, Inferenz-Kosten
Daten (D)	Anzahl der Trainings-Tokens	Daten-Beschaffung
Compute (C)	FLOPs für Training	GPU-Stunden

Chinchilla Scaling

Das Chinchilla-Paper zeigte: Optimale Skalierung bedeutet gleichermaßen Parameter und Daten erhöhen.

Optimal: Tokens ≈ 20 × Parameter

Beispiel:
- 7B Modell → 140B Tokens Training
- 70B Modell → 1.4T Tokens Training

Viele frühere Modelle (GPT-3, Gopher) waren “undertrained” – zu viele Parameter, zu wenig Training.

Emergent Abilities

Manche Fähigkeiten erscheinen plötzlich ab einer bestimmten Größe:

Modellgröße:  1B    10B    100B
Arithmetik:   ❌     ❌      ✅
CoT Reasoning: ❌     ❌      ✅

Diese “emergent abilities” sind schwer vorherzusagen und ein aktives Forschungsgebiet.

Praktische Implikationen

Für Training: Budget zwischen Modellgröße und Trainings-Tokens aufteilen
Für Inferenz: Kleinere, länger trainierte Modelle können effizienter sein
Für Forschung: Trends an kleinen Modellen testen, dann skalieren

ANALOGIE

Scaling Laws sind wie Wachstumskurven für Pflanzen: Mehr Wasser und Dünger (Compute, Daten) führt zu mehr Wachstum (bessere Performance), aber mit abnehmenden Erträgen – irgendwann bringt mehr Dünger kaum noch Verbesserung.

WICHTIGSTE PUNKTE

Performance skaliert vorhersagbar mit Modellgröße, Daten und Compute

Power-Law-Beziehung: Verdopplung der Ressourcen → konstante Verbesserung

Grundlage für Entscheidungen über Trainings-Budgets und Modellarchitekturen

ANWENDUNGSFÄLLE

Trainings-Planung

Vorhersage der benötigten Ressourcen für gewünschte Performance

Modell-Design

Optimale Balance zwischen Parametern und Trainingsdaten

Kosten-Nutzen-Analyse

Abschätzung, ob mehr Training sich lohnt

HÄUFIGE FRAGEN

Werden LLMs unbegrenzt besser, wenn man sie größer macht?

Nein. Die Verbesserung folgt einem Power Law mit abnehmenden Erträgen. Außerdem gibt es praktische Grenzen: Verfügbare Daten, Compute-Kosten, Inferenz-Latenz. Und manche Fähigkeiten (z.B. Reasoning) skalieren anders als andere.

Was ist das Chinchilla-Optimum?

Die Erkenntnis, dass viele LLMs 'undertrained' waren: Für optimale Performance sollte man mehr Tokens trainieren, nicht nur mehr Parameter haben. Chinchilla (70B) schlug das größere Gopher (280B) durch mehr Training.

Gelten Scaling Laws für alle Aufgaben?

Für die meisten, aber nicht alle. Manche Fähigkeiten zeigen 'emergent behavior' – sie erscheinen plötzlich ab einer bestimmten Größe. Andere Aufgaben skalieren schlechter oder gar nicht.

TOOLS & RESSOURCEN

Chinchilla Paper

Wichtiges Paper zu optimalen Trainings-Verhältnissen

Scaling Laws Paper (OpenAI)

Grundlegendes Paper zu Scaling Laws

VERWANDTE BEGRIFFE

LLM Grundlagen

Large Language Model (LLM)

Ein KI-Modell, das auf riesigen Textmengen trainiert wurde und menschenähnliche Sprache verstehen und generieren kann.

Grundlagen

Parameter

Die internen Zahlenwerte eines KI-Modells, die während des Trainings gelernt werden und das 'Wissen' des Modells repräsentieren.

Grundlagen Daten

Trainingsdaten

Die Datensätze, mit denen KI-Modelle trainiert werden – sie bestimmen maßgeblich, was ein Modell lernt, wie gut es funktioniert und welche Verzerrungen es aufweist.

Architektur LLM

Transformer

Eine revolutionäre neuronale Netzwerk-Architektur, die auf dem Attention-Mechanismus basiert und die Grundlage für moderne Sprachmodelle wie GPT und BERT bildet.

Grundlagen

Deep Learning

Ein Teilbereich des Machine Learning, der tiefe künstliche neuronale Netze mit vielen Schichten nutzt, um komplexe Muster in großen Datenmengen zu erkennen.