<EbeneX/>
Grundlagen LLM · Updated 3. März 2026

Pre-Training

Definition

Die erste und aufwändigste Trainingsphase eines Foundation Models, in der es auf riesigen Datenmengen grundlegende Sprachverständnis- und Reasoning-Fähigkeiten erlernt – bevor Fine-Tuning oder RLHF folgen.

Fortgeschritten 2 Min. Lesezeit EN: Pre-Training

Einfach erklärt

Pre-Training ist die erste und wichtigste Phase beim Training eines Sprachmodells. Das Modell liest Milliarden von Texten und lernt dabei, das nächste Wort vorherzusagen.

Die Trainingsphasen eines modernen LLMs:

1. Pre-Training      → Allgemeines Wissen (Billionen Tokens)
2. Supervised FT     → Instruktionen befolgen (Tausende Beispiele)
3. RLHF / DPO       → Menschliche Präferenzen lernen
4. Safety Training   → Schädliche Ausgaben vermeiden

Was das Modell im Pre-Training lernt:

  • Grammatik und Sprachstruktur
  • Faktenwissen über die Welt
  • Logische Zusammenhänge und Reasoning-Ansätze
  • Code-Syntax und Programmierkonzepte
  • Mehrsprachige Fähigkeiten

Technischer Deep Dive

Training Objective

Die meisten LLMs nutzen Causal Language Modeling (Next Token Prediction):

Eingabe:  "Die Katze sitzt auf dem"
Ziel:     "Katze sitzt auf dem Dach"

Loss = -log P("Dach" | "Die Katze sitzt auf dem")

Das Modell minimiert den Loss über Billionen solcher Vorhersagen.

Typische Pre-Training-Daten

QuelleAnteilBeispiel
Webseiten~60 %Common Crawl, gefiltert
Bücher~10 %Books3, Project Gutenberg
Code~10 %GitHub, Stack Overflow
Wissenschaft~10 %ArXiv, PubMed
Sonstiges~10 %Wikipedia, Reddit, News

Scaling Laws

Pre-Training folgt vorhersagbaren Scaling Laws (Chinchilla):

Optimale Tokens ≈ 20 × Parameter

7B-Modell  → ~140B Tokens
70B-Modell → ~1.4T Tokens

Mehr Daten und mehr Parameter → bessere Leistung, aber mit abnehmenden Erträgen.

Pre-Training ist wie die Schulausbildung eines Menschen: Du lernst Lesen, Schreiben, Rechnen und allgemeines Weltwissen – nicht für einen bestimmten Job, sondern als Grundlage für alles, was danach kommt. Fine-Tuning ist dann die Spezialisierung im Beruf.

Trainiert auf Billionen von Tokens aus dem Internet, Büchern, Code etc.

Lernt Sprachstruktur, Weltwissen und Reasoning-Grundlagen

Kostet Millionen Dollar und dauert Wochen auf tausenden GPUs

Foundation Models

GPT-4, Claude, Llama werden alle zunächst mit Pre-Training auf riesigen Textkorpora trainiert

Domain-spezifische Modelle

Continued Pre-Training auf Fachliteratur (Medizin, Recht, Finanzen) für spezialisierte Modelle

Multimodale Modelle

Pre-Training auf Text-Bild-Paaren für Vision-Language-Modelle

Wie teuer ist Pre-Training?

GPT-4-Klasse-Modelle kosten geschätzt 50–100 Millionen Dollar für einen Training-Run. Kleinere Modelle (7B Parameter) lassen sich ab ~100.000 Dollar trainieren. Die Kosten sinken durch bessere Hardware und effizientere Algorithmen.

Was ist der Unterschied zwischen Pre-Training und Fine-Tuning?

Pre-Training lernt allgemeines Wissen auf riesigen Datenmengen (unsupervised). Fine-Tuning spezialisiert das Modell auf eine bestimmte Aufgabe mit kleineren, kuratierten Datensätzen (supervised). Pre-Training ist die Basis, Fine-Tuning die Spezialisierung.

Kann ich selbst ein Modell von Grund auf pre-trainen?

Theoretisch ja, praktisch braucht man enorme Compute-Ressourcen. Für die meisten Anwendungen ist es sinnvoller, ein existierendes Pre-Trained-Modell per Fine-Tuning oder RAG anzupassen.

Dein persönliches Share-Bild für Instagram – 1080×1080px, bereit zum Posten.