Trainingsdaten: Grundlage für KI-Modelle | KI-Glossar

ERKLÄRUNG

Einfach erklärt

Trainingsdaten sind die Informationen, aus denen ein KI-Modell lernt. So wie ein Mensch aus Erfahrungen und Büchern lernt, lernt eine KI aus den Daten, die ihr zum Training gegeben werden. Die Qualität und Quantität der Trainingsdaten ist oft wichtiger als die Wahl des Modells oder der Architektur. Ein einfaches Modell mit exzellenten Daten schlägt regelmäßig ein komplexes Modell mit schlechten Daten. Das Sammeln, Bereinigen und Annotieren von Trainingsdaten ist deshalb oft der aufwändigste Teil eines KI-Projekts. Für Foundation Models wurden Billionen von Tokens aus dem Internet gesammelt. Für spezialisierte Anwendungen reichen oft wenige tausend hochwertiger Beispiele – wenn sie sorgfältig kuratiert und gelabelt sind. Datenschutz und Urheberrecht sind dabei wichtige rechtliche Rahmenbedingungen.

Warum sind Trainingsdaten so wichtig?

Garbage In, Garbage Out: Schlechte Daten = schlechtes Modell
Bias: Einseitige Daten führen zu einseitigen Ergebnissen
Abdeckung: Das Modell kann nur lernen, was in den Daten vorkommt
Aktualität: Veraltete Daten führen zu veralteten Antworten

Arten von Trainingsdaten:

Typ	Beschreibung	Beispiel
Gelabelt	Daten mit korrekter Antwort	Bild + Label “Katze”
Ungelabelt	Rohdaten ohne Annotation	Millionen Webseiten
Synthetisch	KI-generierte Trainingsdaten	Von GPT-5 erzeugte Beispiele
Kuratiert	Manuell ausgewählte, hochwertige Daten	Instruction-Datensätze

Für LLMs:

Moderne LLMs werden auf riesigen Textmengen trainiert:

GPT-5: Geschätzt 13+ Billionen Tokens
Llama 4: 15+ Billionen Tokens
Das entspricht Millionen von Büchern

Technischer Deep Dive

Datenquellen für LLMs

Web-Daten:

Common Crawl: Petabytes an Webseiten
Filterung nötig: Spam, Duplikate, toxische Inhalte entfernen
Qualitätsfilter: Perplexity-basiert, Classifier-basiert

Kuratierte Quellen:

Wikipedia: Hohe Qualität, aber begrenzt
Bücher: Project Gutenberg, Books3 (rechtlich umstritten)
Wissenschaftliche Paper: ArXiv, PubMed, Semantic Scholar
Code: GitHub, Stack Overflow

Synthetische Daten:

Von stärkeren Modellen generierte Trainingsdaten
Beispiel: GPT-5 generiert Instruction-Daten für kleinere Modelle
Vorsicht: “Model Collapse” bei zu vielen synthetischen Daten

Datenaufbereitung

1. Sammlung und Filterung:

Deduplizierung (MinHash, SimHash)
Qualitätsfilterung (Perplexity, Textlänge, Sprache)
Toxizitätsfilterung (Classifier-basiert)
PII-Entfernung (persönliche Daten)

2. Tokenisierung:

Text in Tokens umwandeln
Tokenizer auf dem Datensatz trainieren (BPE, SentencePiece)
Spezielle Tokens hinzufügen (BOS, EOS, PAD)

3. Datenmischung:

Verschiedene Quellen in bestimmten Verhältnissen mischen
Beispiel: 50% Web, 25% Bücher, 15% Code, 10% Wissenschaft
Die Mischung beeinflusst die Stärken des Modells

Datenqualität vs. Quantität

Forschung zeigt zunehmend, dass Datenqualität wichtiger ist als Menge:

Phi-Modelle (Microsoft):

Kleine Modelle (1.3B-14B Parameter) mit hochwertigen Daten
Konkurrieren mit deutlich größeren Modellen
“Textbook-quality” Daten als Schlüssel

LIMA-Paper:

Nur 1.000 sorgfältig kuratierte Beispiele für Fine-Tuning
Ergebnisse vergleichbar mit RLHF auf großen Datensätzen
“Less Is More for Alignment”

Bias und Fairness

Quellen von Bias:

Repräsentations-Bias: Bestimmte Gruppen sind über-/unterrepräsentiert
Historischer Bias: Daten spiegeln historische Ungleichheiten wider
Measurement Bias: Fehlerhafte Datenerhebung
Aggregation Bias: Unterschiede zwischen Subgruppen werden ignoriert

Gegenmaßnahmen:

Diverse und repräsentative Datensätze zusammenstellen
Bias-Audits vor und nach dem Training
Debiasing-Techniken (Counterfactual Data Augmentation)
Transparenz über Datenquellen und -zusammensetzung

Rechtliche Aspekte

Urheberrecht: Nutzung urheberrechtlich geschützter Texte für Training ist rechtlich umstritten
DSGVO: Personenbezogene Daten in Trainingsdaten sind problematisch
Opt-Out: Einige Anbieter bieten Opt-Out-Möglichkeiten für Webseitenbetreiber
Transparenz: EU AI Act fordert Offenlegung der Trainingsdaten für bestimmte Modelle

ANALOGIE

Trainingsdaten sind wie die Lehrbücher eines Studenten: Die Qualität und Vielfalt der Bücher bestimmt, wie gut und breit gefächert das Wissen ist. Fehlerhafte Lehrbücher führen zu falschem Wissen.

WICHTIGSTE PUNKTE

Grundlage jedes KI-Modells – die Qualität der Daten bestimmt die Qualität des Modells

Umfasst Texte, Bilder, Audio oder andere Daten, aus denen das Modell Muster lernt

Bias in Trainingsdaten führt zu Bias in den Ergebnissen des Modells

ANWENDUNGSFÄLLE

LLM Pre-Training

Billionen von Tokens aus dem Internet, Büchern und Code für das Training von Sprachmodellen

Bilderkennung

Millionen gelabelter Bilder für das Training von Computer-Vision-Modellen

Spracherkennung

Tausende Stunden transkribierter Sprache für Speech-to-Text-Modelle

Fine-Tuning-Datensätze

Kuratierte Instruction-Response-Paare für die Spezialisierung von Modellen

HÄUFIGE FRAGEN

Wie viele Trainingsdaten braucht ein KI-Modell?

Das variiert enorm. Klassisches ML kann mit hunderten Datenpunkten funktionieren. LLMs werden auf Billionen von Tokens trainiert. Für Fine-Tuning reichen oft 100-10.000 Beispiele. Generell gilt: Qualität ist wichtiger als Quantität.

Woher kommen die Trainingsdaten für LLMs?

Hauptsächlich aus dem Internet (Common Crawl), Büchern (Books3), Wikipedia, Code-Repositories (GitHub), wissenschaftlichen Papern und kuratierten Datensätzen. Die genaue Zusammensetzung ist bei kommerziellen Modellen oft nicht öffentlich.

Was ist Daten-Bias?

Wenn Trainingsdaten bestimmte Gruppen, Perspektiven oder Themen über- oder unterrepräsentieren, lernt das Modell diese Verzerrung. Beispiel: Ein Modell, das hauptsächlich auf englischen Texten trainiert wurde, versteht Deutsch schlechter.

Darf man beliebige Daten zum Training verwenden?

Nein. Urheberrecht, Datenschutz (DSGVO) und Lizenzbedingungen müssen beachtet werden. Die rechtliche Lage ist noch in Entwicklung – mehrere Klagen gegen KI-Unternehmen wegen Urheberrechtsverletzungen sind anhängig.

TOOLS & RESSOURCEN

Hugging Face Datasets

Größte Plattform für Open-Source-Datensätze mit über 100.000 Datensätzen

Common Crawl

Riesiger Web-Crawl-Datensatz, Basis vieler LLM-Trainingsdaten

Label Studio

Open-Source-Tool für Datenannotation und -labeling

Argilla

Plattform für die Erstellung und Kuration von KI-Trainingsdaten

VERWANDTE BEGRIFFE

Grundlagen

Machine Learning (ML)

Ein Teilbereich der KI, bei dem Algorithmen aus Daten lernen und Vorhersagen treffen, ohne explizit programmiert zu werden.

Grundlagen

Ein Teilbereich des Machine Learning, der tiefe künstliche neuronale Netze mit vielen Schichten nutzt, um komplexe Muster in großen Datenmengen zu erkennen.

LLM Praxis

Fine-Tuning

Das gezielte Nachtrainieren eines vortrainierten KI-Modells auf spezifische Daten oder Aufgaben, um es für einen bestimmten Einsatzzweck zu optimieren.

Grundlagen

Künstliche Intelligenz (KI)

Der Oberbegriff für Computersysteme, die menschenähnliche kognitive Fähigkeiten wie Lernen, Problemlösung und Entscheidungsfindung nachbilden.

Grundlagen

Algorithmus

Eine eindeutige, schrittweise Anleitung zur Lösung eines Problems oder zur Durchführung einer Berechnung – das Grundprinzip hinter jeder Software und KI.