Pre-Training: Wie KI-Modelle ihre Grundfähigkeiten lernen

ERKLÄRUNG

Einfach erklärt

Pre-Training ist die erste und wichtigste Phase beim Training eines Sprachmodells. Das Modell liest Milliarden von Texten und lernt dabei, das nächste Wort vorherzusagen.

Die Trainingsphasen eines modernen LLMs:

1. Pre-Training      → Allgemeines Wissen (Billionen Tokens)
2. Supervised FT     → Instruktionen befolgen (Tausende Beispiele)
3. RLHF / DPO       → Menschliche Präferenzen lernen
4. Safety Training   → Schädliche Ausgaben vermeiden

Was das Modell im Pre-Training lernt:

Grammatik und Sprachstruktur
Faktenwissen über die Welt
Logische Zusammenhänge und Reasoning-Ansätze
Code-Syntax und Programmierkonzepte
Mehrsprachige Fähigkeiten

Technischer Deep Dive

Training Objective

Die meisten LLMs nutzen Causal Language Modeling (Next Token Prediction):

Eingabe:  "Die Katze sitzt auf dem"
Ziel:     "Katze sitzt auf dem Dach"

Loss = -log P("Dach" | "Die Katze sitzt auf dem")

Das Modell minimiert den Loss über Billionen solcher Vorhersagen.

Typische Pre-Training-Daten

Quelle	Anteil	Beispiel
Webseiten	~60 %	Common Crawl, gefiltert
Bücher	~10 %	Books3, Project Gutenberg
Code	~10 %	GitHub, Stack Overflow
Wissenschaft	~10 %	ArXiv, PubMed
Sonstiges	~10 %	Wikipedia, Reddit, News

Scaling Laws

Pre-Training folgt vorhersagbaren Scaling Laws (Chinchilla):

Optimale Tokens ≈ 20 × Parameter

7B-Modell  → ~140B Tokens
70B-Modell → ~1.4T Tokens

Mehr Daten und mehr Parameter → bessere Leistung, aber mit abnehmenden Erträgen.

ANALOGIE

Pre-Training ist wie die Schulausbildung eines Menschen: Du lernst Lesen, Schreiben, Rechnen und allgemeines Weltwissen – nicht für einen bestimmten Job, sondern als Grundlage für alles, was danach kommt. Fine-Tuning ist dann die Spezialisierung im Beruf.

WICHTIGSTE PUNKTE

Trainiert auf Billionen von Tokens aus dem Internet, Büchern, Code etc.

Lernt Sprachstruktur, Weltwissen und Reasoning-Grundlagen

Kostet Millionen Dollar und dauert Wochen auf tausenden GPUs

ANWENDUNGSFÄLLE

Foundation Models

GPT-4, Claude, Llama werden alle zunächst mit Pre-Training auf riesigen Textkorpora trainiert

Domain-spezifische Modelle

Continued Pre-Training auf Fachliteratur (Medizin, Recht, Finanzen) für spezialisierte Modelle

Multimodale Modelle

Pre-Training auf Text-Bild-Paaren für Vision-Language-Modelle

HÄUFIGE FRAGEN

Wie teuer ist Pre-Training?

GPT-4-Klasse-Modelle kosten geschätzt 50–100 Millionen Dollar für einen Training-Run. Kleinere Modelle (7B Parameter) lassen sich ab ~100.000 Dollar trainieren. Die Kosten sinken durch bessere Hardware und effizientere Algorithmen.

Was ist der Unterschied zwischen Pre-Training und Fine-Tuning?

Pre-Training lernt allgemeines Wissen auf riesigen Datenmengen (unsupervised). Fine-Tuning spezialisiert das Modell auf eine bestimmte Aufgabe mit kleineren, kuratierten Datensätzen (supervised). Pre-Training ist die Basis, Fine-Tuning die Spezialisierung.

Kann ich selbst ein Modell von Grund auf pre-trainen?

Theoretisch ja, praktisch braucht man enorme Compute-Ressourcen. Für die meisten Anwendungen ist es sinnvoller, ein existierendes Pre-Trained-Modell per Fine-Tuning oder RAG anzupassen.

TOOLS & RESSOURCEN

Megatron-LM

NVIDIAs Framework für effizientes Pre-Training großer Modelle

Hugging Face TRL

Training-Library für alle Phasen von Pre-Training bis RLHF

VERWANDTE BEGRIFFE

LLM Grundlagen

Foundation Model

Große, auf breiten Daten vortrainierte KI-Modelle, die als Grundlage für viele verschiedene Anwendungen dienen – durch Fine-Tuning oder Prompting anpassbar.

LLM Praxis

Fine-Tuning

Das gezielte Nachtrainieren eines vortrainierten KI-Modells auf spezifische Daten oder Aufgaben, um es für einen bestimmten Einsatzzweck zu optimieren.

Grundlagen Daten

Trainingsdaten

Die Datensätze, mit denen KI-Modelle trainiert werden – sie bestimmen maßgeblich, was ein Modell lernt, wie gut es funktioniert und welche Verzerrungen es aufweist.

LLM Grundlagen

Large Language Model (LLM)

Ein KI-Modell, das auf riesigen Textmengen trainiert wurde und menschenähnliche Sprache verstehen und generieren kann.

LLM Grundlagen

Scaling Laws

Empirische Gesetzmäßigkeiten, die beschreiben, wie die Leistung von LLMs mit Modellgröße, Datenmenge und Rechenleistung skaliert – Grundlage für Trainings-Entscheidungen.

Grundlagen LLM

Self-Supervised Learning

Eine Lernmethode, bei der das Modell sich selbst Trainingsaufgaben aus ungelabelten Daten erstellt – die Grundlage für das Pre-Training moderner LLMs.