<EbeneX/>
Grundlagen Daten · Updated 17. Februar 2026

Trainingsdaten

Definition

Die Datensätze, mit denen KI-Modelle trainiert werden – sie bestimmen maßgeblich, was ein Modell lernt, wie gut es funktioniert und welche Verzerrungen es aufweist.

Einsteiger 3 Min. Lesezeit EN: Training Data

Einfach erklärt

Trainingsdaten sind die Informationen, aus denen ein KI-Modell lernt. So wie ein Mensch aus Erfahrungen und Büchern lernt, lernt eine KI aus den Daten, die ihr zum Training gegeben werden. Die Qualität und Quantität der Trainingsdaten ist oft wichtiger als die Wahl des Modells oder der Architektur. Ein einfaches Modell mit exzellenten Daten schlägt regelmäßig ein komplexes Modell mit schlechten Daten. Das Sammeln, Bereinigen und Annotieren von Trainingsdaten ist deshalb oft der aufwändigste Teil eines KI-Projekts. Für Foundation Models wurden Billionen von Tokens aus dem Internet gesammelt. Für spezialisierte Anwendungen reichen oft wenige tausend hochwertiger Beispiele – wenn sie sorgfältig kuratiert und gelabelt sind. Datenschutz und Urheberrecht sind dabei wichtige rechtliche Rahmenbedingungen.

Warum sind Trainingsdaten so wichtig?

  • Garbage In, Garbage Out: Schlechte Daten = schlechtes Modell
  • Bias: Einseitige Daten führen zu einseitigen Ergebnissen
  • Abdeckung: Das Modell kann nur lernen, was in den Daten vorkommt
  • Aktualität: Veraltete Daten führen zu veralteten Antworten

Arten von Trainingsdaten:

TypBeschreibungBeispiel
GelabeltDaten mit korrekter AntwortBild + Label “Katze”
UngelabeltRohdaten ohne AnnotationMillionen Webseiten
SynthetischKI-generierte TrainingsdatenVon GPT-5 erzeugte Beispiele
KuratiertManuell ausgewählte, hochwertige DatenInstruction-Datensätze

Für LLMs:

Moderne LLMs werden auf riesigen Textmengen trainiert:

  • GPT-5: Geschätzt 13+ Billionen Tokens
  • Llama 4: 15+ Billionen Tokens
  • Das entspricht Millionen von Büchern

Technischer Deep Dive

Datenquellen für LLMs

Web-Daten:

  • Common Crawl: Petabytes an Webseiten
  • Filterung nötig: Spam, Duplikate, toxische Inhalte entfernen
  • Qualitätsfilter: Perplexity-basiert, Classifier-basiert

Kuratierte Quellen:

  • Wikipedia: Hohe Qualität, aber begrenzt
  • Bücher: Project Gutenberg, Books3 (rechtlich umstritten)
  • Wissenschaftliche Paper: ArXiv, PubMed, Semantic Scholar
  • Code: GitHub, Stack Overflow

Synthetische Daten:

  • Von stärkeren Modellen generierte Trainingsdaten
  • Beispiel: GPT-5 generiert Instruction-Daten für kleinere Modelle
  • Vorsicht: “Model Collapse” bei zu vielen synthetischen Daten

Datenaufbereitung

1. Sammlung und Filterung:

  • Deduplizierung (MinHash, SimHash)
  • Qualitätsfilterung (Perplexity, Textlänge, Sprache)
  • Toxizitätsfilterung (Classifier-basiert)
  • PII-Entfernung (persönliche Daten)

2. Tokenisierung:

  • Text in Tokens umwandeln
  • Tokenizer auf dem Datensatz trainieren (BPE, SentencePiece)
  • Spezielle Tokens hinzufügen (BOS, EOS, PAD)

3. Datenmischung:

  • Verschiedene Quellen in bestimmten Verhältnissen mischen
  • Beispiel: 50% Web, 25% Bücher, 15% Code, 10% Wissenschaft
  • Die Mischung beeinflusst die Stärken des Modells

Datenqualität vs. Quantität

Forschung zeigt zunehmend, dass Datenqualität wichtiger ist als Menge:

Phi-Modelle (Microsoft):

  • Kleine Modelle (1.3B-14B Parameter) mit hochwertigen Daten
  • Konkurrieren mit deutlich größeren Modellen
  • “Textbook-quality” Daten als Schlüssel

LIMA-Paper:

  • Nur 1.000 sorgfältig kuratierte Beispiele für Fine-Tuning
  • Ergebnisse vergleichbar mit RLHF auf großen Datensätzen
  • “Less Is More for Alignment

Bias und Fairness

Quellen von Bias:

  • Repräsentations-Bias: Bestimmte Gruppen sind über-/unterrepräsentiert
  • Historischer Bias: Daten spiegeln historische Ungleichheiten wider
  • Measurement Bias: Fehlerhafte Datenerhebung
  • Aggregation Bias: Unterschiede zwischen Subgruppen werden ignoriert

Gegenmaßnahmen:

  • Diverse und repräsentative Datensätze zusammenstellen
  • Bias-Audits vor und nach dem Training
  • Debiasing-Techniken (Counterfactual Data Augmentation)
  • Transparenz über Datenquellen und -zusammensetzung

Rechtliche Aspekte

  • Urheberrecht: Nutzung urheberrechtlich geschützter Texte für Training ist rechtlich umstritten
  • DSGVO: Personenbezogene Daten in Trainingsdaten sind problematisch
  • Opt-Out: Einige Anbieter bieten Opt-Out-Möglichkeiten für Webseitenbetreiber
  • Transparenz: EU AI Act fordert Offenlegung der Trainingsdaten für bestimmte Modelle

Trainingsdaten sind wie die Lehrbücher eines Studenten: Die Qualität und Vielfalt der Bücher bestimmt, wie gut und breit gefächert das Wissen ist. Fehlerhafte Lehrbücher führen zu falschem Wissen.

Grundlage jedes KI-Modells – die Qualität der Daten bestimmt die Qualität des Modells

Umfasst Texte, Bilder, Audio oder andere Daten, aus denen das Modell Muster lernt

Bias in Trainingsdaten führt zu Bias in den Ergebnissen des Modells

LLM Pre-Training

Billionen von Tokens aus dem Internet, Büchern und Code für das Training von Sprachmodellen

Bilderkennung

Millionen gelabelter Bilder für das Training von Computer-Vision-Modellen

Spracherkennung

Tausende Stunden transkribierter Sprache für Speech-to-Text-Modelle

Fine-Tuning-Datensätze

Kuratierte Instruction-Response-Paare für die Spezialisierung von Modellen

Wie viele Trainingsdaten braucht ein KI-Modell?

Das variiert enorm. Klassisches ML kann mit hunderten Datenpunkten funktionieren. LLMs werden auf Billionen von Tokens trainiert. Für Fine-Tuning reichen oft 100-10.000 Beispiele. Generell gilt: Qualität ist wichtiger als Quantität.

Woher kommen die Trainingsdaten für LLMs?

Hauptsächlich aus dem Internet (Common Crawl), Büchern (Books3), Wikipedia, Code-Repositories (GitHub), wissenschaftlichen Papern und kuratierten Datensätzen. Die genaue Zusammensetzung ist bei kommerziellen Modellen oft nicht öffentlich.

Was ist Daten-Bias?

Wenn Trainingsdaten bestimmte Gruppen, Perspektiven oder Themen über- oder unterrepräsentieren, lernt das Modell diese Verzerrung. Beispiel: Ein Modell, das hauptsächlich auf englischen Texten trainiert wurde, versteht Deutsch schlechter.

Darf man beliebige Daten zum Training verwenden?

Nein. Urheberrecht, Datenschutz (DSGVO) und Lizenzbedingungen müssen beachtet werden. Die rechtliche Lage ist noch in Entwicklung – mehrere Klagen gegen KI-Unternehmen wegen Urheberrechtsverletzungen sind anhängig.

Dein persönliches Share-Bild für Instagram – 1080×1080px, bereit zum Posten.