Large Language Model (LLM)
Ein KI-Modell, das auf riesigen Textmengen trainiert wurde und menschenähnliche Sprache verstehen und generieren kann.
Empirische Gesetzmäßigkeiten, die beschreiben, wie die Leistung von LLMs mit Modellgröße, Datenmenge und Rechenleistung skaliert – Grundlage für Trainings-Entscheidungen.
Scaling Laws sind empirische Gesetzmäßigkeiten, die beschreiben, wie die Performance von LLMs mit mehr Parametern, mehr Trainingsdaten und mehr Rechenleistung wächst. Die bahnbrechenden Erkenntnisse von OpenAI (2020) und DeepMind (Chinchilla, 2022) zeigten: Die Verbesserung folgt vorhersehbaren Power Laws. Das ermöglicht es, die Performance eines Modells vorherzusagen, bevor es trainiert wird – und optimale Verhältnisse von Parametern zu Trainingsdaten zu berechnen.
Scaling Laws beschreiben, wie LLM-Performance mit Ressourcen wächst. Mehr Parameter, mehr Daten, mehr Compute → bessere Performance. Aber: Die Verbesserung folgt einem Power Law – jede Verdopplung bringt nur konstante Verbesserung.
Die Kernformel:
Loss ∝ 1 / (Parameter^α × Daten^β × Compute^γ)
α, β, γ ≈ 0.05-0.1 (je nach Studie)
Was bedeutet das praktisch?
Um den Loss um 10% zu senken, brauchst du etwa 10x mehr Ressourcen. Das erklärt, warum GPT-5 so viel teurer zu trainieren war als GPT-4.
| Dimension | Beschreibung | Kosten |
|---|---|---|
| Parameter (N) | Anzahl der Modellgewichte | VRAM, Inferenz-Kosten |
| Daten (D) | Anzahl der Trainings-Tokens | Daten-Beschaffung |
| Compute (C) | FLOPs für Training | GPU-Stunden |
Das Chinchilla-Paper zeigte: Optimale Skalierung bedeutet gleichermaßen Parameter und Daten erhöhen.
Optimal: Tokens ≈ 20 × Parameter
Beispiel:
- 7B Modell → 140B Tokens Training
- 70B Modell → 1.4T Tokens Training
Viele frühere Modelle (GPT-3, Gopher) waren “undertrained” – zu viele Parameter, zu wenig Training.
Manche Fähigkeiten erscheinen plötzlich ab einer bestimmten Größe:
Modellgröße: 1B 10B 100B
Arithmetik: ❌ ❌ ✅
CoT Reasoning: ❌ ❌ ✅
Diese “emergent abilities” sind schwer vorherzusagen und ein aktives Forschungsgebiet.
Scaling Laws sind wie Wachstumskurven für Pflanzen: Mehr Wasser und Dünger (Compute, Daten) führt zu mehr Wachstum (bessere Performance), aber mit abnehmenden Erträgen – irgendwann bringt mehr Dünger kaum noch Verbesserung.
Performance skaliert vorhersagbar mit Modellgröße, Daten und Compute
Power-Law-Beziehung: Verdopplung der Ressourcen → konstante Verbesserung
Grundlage für Entscheidungen über Trainings-Budgets und Modellarchitekturen
Trainings-Planung
Vorhersage der benötigten Ressourcen für gewünschte Performance
Modell-Design
Optimale Balance zwischen Parametern und Trainingsdaten
Kosten-Nutzen-Analyse
Abschätzung, ob mehr Training sich lohnt
Nein. Die Verbesserung folgt einem Power Law mit abnehmenden Erträgen. Außerdem gibt es praktische Grenzen: Verfügbare Daten, Compute-Kosten, Inferenz-Latenz. Und manche Fähigkeiten (z.B. Reasoning) skalieren anders als andere.
Die Erkenntnis, dass viele LLMs 'undertrained' waren: Für optimale Performance sollte man mehr Tokens trainieren, nicht nur mehr Parameter haben. Chinchilla (70B) schlug das größere Gopher (280B) durch mehr Training.
Für die meisten, aber nicht alle. Manche Fähigkeiten zeigen 'emergent behavior' – sie erscheinen plötzlich ab einer bestimmten Größe. Andere Aufgaben skalieren schlechter oder gar nicht.