Foundation Model
Große, auf breiten Daten vortrainierte KI-Modelle, die als Grundlage für viele verschiedene Anwendungen dienen – durch Fine-Tuning oder Prompting anpassbar.
Die erste und aufwändigste Trainingsphase eines Foundation Models, in der es auf riesigen Datenmengen grundlegende Sprachverständnis- und Reasoning-Fähigkeiten erlernt – bevor Fine-Tuning oder RLHF folgen.
Pre-Training ist die erste und wichtigste Phase beim Training eines Sprachmodells. Das Modell liest Milliarden von Texten und lernt dabei, das nächste Wort vorherzusagen.
Die Trainingsphasen eines modernen LLMs:
1. Pre-Training → Allgemeines Wissen (Billionen Tokens)
2. Supervised FT → Instruktionen befolgen (Tausende Beispiele)
3. RLHF / DPO → Menschliche Präferenzen lernen
4. Safety Training → Schädliche Ausgaben vermeiden
Was das Modell im Pre-Training lernt:
Die meisten LLMs nutzen Causal Language Modeling (Next Token Prediction):
Eingabe: "Die Katze sitzt auf dem"
Ziel: "Katze sitzt auf dem Dach"
Loss = -log P("Dach" | "Die Katze sitzt auf dem")
Das Modell minimiert den Loss über Billionen solcher Vorhersagen.
| Quelle | Anteil | Beispiel |
|---|---|---|
| Webseiten | ~60 % | Common Crawl, gefiltert |
| Bücher | ~10 % | Books3, Project Gutenberg |
| Code | ~10 % | GitHub, Stack Overflow |
| Wissenschaft | ~10 % | ArXiv, PubMed |
| Sonstiges | ~10 % | Wikipedia, Reddit, News |
Pre-Training folgt vorhersagbaren Scaling Laws (Chinchilla):
Optimale Tokens ≈ 20 × Parameter
7B-Modell → ~140B Tokens
70B-Modell → ~1.4T Tokens
Mehr Daten und mehr Parameter → bessere Leistung, aber mit abnehmenden Erträgen.
Pre-Training ist wie die Schulausbildung eines Menschen: Du lernst Lesen, Schreiben, Rechnen und allgemeines Weltwissen – nicht für einen bestimmten Job, sondern als Grundlage für alles, was danach kommt. Fine-Tuning ist dann die Spezialisierung im Beruf.
Trainiert auf Billionen von Tokens aus dem Internet, Büchern, Code etc.
Lernt Sprachstruktur, Weltwissen und Reasoning-Grundlagen
Kostet Millionen Dollar und dauert Wochen auf tausenden GPUs
Foundation Models
GPT-4, Claude, Llama werden alle zunächst mit Pre-Training auf riesigen Textkorpora trainiert
Domain-spezifische Modelle
Continued Pre-Training auf Fachliteratur (Medizin, Recht, Finanzen) für spezialisierte Modelle
Multimodale Modelle
Pre-Training auf Text-Bild-Paaren für Vision-Language-Modelle
GPT-4-Klasse-Modelle kosten geschätzt 50–100 Millionen Dollar für einen Training-Run. Kleinere Modelle (7B Parameter) lassen sich ab ~100.000 Dollar trainieren. Die Kosten sinken durch bessere Hardware und effizientere Algorithmen.
Pre-Training lernt allgemeines Wissen auf riesigen Datenmengen (unsupervised). Fine-Tuning spezialisiert das Modell auf eine bestimmte Aufgabe mit kleineren, kuratierten Datensätzen (supervised). Pre-Training ist die Basis, Fine-Tuning die Spezialisierung.
Theoretisch ja, praktisch braucht man enorme Compute-Ressourcen. Für die meisten Anwendungen ist es sinnvoller, ein existierendes Pre-Trained-Modell per Fine-Tuning oder RAG anzupassen.