Machine Learning (ML)
Ein Teilbereich der KI, bei dem Algorithmen aus Daten lernen und Vorhersagen treffen, ohne explizit programmiert zu werden.
Die Datensätze, mit denen KI-Modelle trainiert werden – sie bestimmen maßgeblich, was ein Modell lernt, wie gut es funktioniert und welche Verzerrungen es aufweist.
Trainingsdaten sind die Informationen, aus denen ein KI-Modell lernt. So wie ein Mensch aus Erfahrungen und Büchern lernt, lernt eine KI aus den Daten, die ihr zum Training gegeben werden. Die Qualität und Quantität der Trainingsdaten ist oft wichtiger als die Wahl des Modells oder der Architektur. Ein einfaches Modell mit exzellenten Daten schlägt regelmäßig ein komplexes Modell mit schlechten Daten. Das Sammeln, Bereinigen und Annotieren von Trainingsdaten ist deshalb oft der aufwändigste Teil eines KI-Projekts. Für Foundation Models wurden Billionen von Tokens aus dem Internet gesammelt. Für spezialisierte Anwendungen reichen oft wenige tausend hochwertiger Beispiele – wenn sie sorgfältig kuratiert und gelabelt sind. Datenschutz und Urheberrecht sind dabei wichtige rechtliche Rahmenbedingungen.
Warum sind Trainingsdaten so wichtig?
Arten von Trainingsdaten:
| Typ | Beschreibung | Beispiel |
|---|---|---|
| Gelabelt | Daten mit korrekter Antwort | Bild + Label “Katze” |
| Ungelabelt | Rohdaten ohne Annotation | Millionen Webseiten |
| Synthetisch | KI-generierte Trainingsdaten | Von GPT-5 erzeugte Beispiele |
| Kuratiert | Manuell ausgewählte, hochwertige Daten | Instruction-Datensätze |
Für LLMs:
Moderne LLMs werden auf riesigen Textmengen trainiert:
Web-Daten:
Kuratierte Quellen:
1. Sammlung und Filterung:
2. Tokenisierung:
3. Datenmischung:
Forschung zeigt zunehmend, dass Datenqualität wichtiger ist als Menge:
Phi-Modelle (Microsoft):
LIMA-Paper:
Quellen von Bias:
Gegenmaßnahmen:
Trainingsdaten sind wie die Lehrbücher eines Studenten: Die Qualität und Vielfalt der Bücher bestimmt, wie gut und breit gefächert das Wissen ist. Fehlerhafte Lehrbücher führen zu falschem Wissen.
Grundlage jedes KI-Modells – die Qualität der Daten bestimmt die Qualität des Modells
Umfasst Texte, Bilder, Audio oder andere Daten, aus denen das Modell Muster lernt
Bias in Trainingsdaten führt zu Bias in den Ergebnissen des Modells
LLM Pre-Training
Billionen von Tokens aus dem Internet, Büchern und Code für das Training von Sprachmodellen
Bilderkennung
Millionen gelabelter Bilder für das Training von Computer-Vision-Modellen
Spracherkennung
Tausende Stunden transkribierter Sprache für Speech-to-Text-Modelle
Fine-Tuning-Datensätze
Kuratierte Instruction-Response-Paare für die Spezialisierung von Modellen
Das variiert enorm. Klassisches ML kann mit hunderten Datenpunkten funktionieren. LLMs werden auf Billionen von Tokens trainiert. Für Fine-Tuning reichen oft 100-10.000 Beispiele. Generell gilt: Qualität ist wichtiger als Quantität.
Hauptsächlich aus dem Internet (Common Crawl), Büchern (Books3), Wikipedia, Code-Repositories (GitHub), wissenschaftlichen Papern und kuratierten Datensätzen. Die genaue Zusammensetzung ist bei kommerziellen Modellen oft nicht öffentlich.
Wenn Trainingsdaten bestimmte Gruppen, Perspektiven oder Themen über- oder unterrepräsentieren, lernt das Modell diese Verzerrung. Beispiel: Ein Modell, das hauptsächlich auf englischen Texten trainiert wurde, versteht Deutsch schlechter.
Nein. Urheberrecht, Datenschutz (DSGVO) und Lizenzbedingungen müssen beachtet werden. Die rechtliche Lage ist noch in Entwicklung – mehrere Klagen gegen KI-Unternehmen wegen Urheberrechtsverletzungen sind anhängig.
Größte Plattform für Open-Source-Datensätze mit über 100.000 Datensätzen
Riesiger Web-Crawl-Datensatz, Basis vieler LLM-Trainingsdaten
Open-Source-Tool für Datenannotation und -labeling
Plattform für die Erstellung und Kuration von KI-Trainingsdaten