Synthetische Daten
Künstlich generierte Trainingsdaten, die echte Daten ergänzen oder ersetzen – von LLM-generierten Texten bis zu simulierten Sensordaten.
Ein Phänomen, bei dem KI-Modelle degenerieren, wenn sie auf synthetischen Daten trainiert werden, die von anderen KI-Modellen generiert wurden.
Model Collapse beschreibt, was passiert, wenn KI-Modelle auf Daten trainiert werden, die von anderen KI-Modellen generiert wurden. Mit jeder Generation geht Qualität und Vielfalt verloren – bis das Modell nur noch Durchschnitt oder Unsinn produziert.
Das Problem visualisiert:
Generation 0: Echte Daten (volle Vielfalt)
↓ Training
Generation 1: Modell A (leichter Qualitätsverlust)
↓ Generiert Daten
Generation 2: Modell B trainiert auf A's Output (mehr Verlust)
↓ Generiert Daten
Generation 3: Modell C trainiert auf B's Output (deutlicher Verlust)
↓
...
Generation N: Nur noch "Durchschnitts-Content" oder Nonsens
Was geht verloren?
| Aspekt | Echte Daten | Nach mehreren Generationen |
|---|---|---|
| Varianz | Hoch | Niedrig |
| Seltene Muster | Vorhanden | Verschwunden |
| Kreativität | Vielfältig | Repetitiv |
| Faktische Tiefe | Detailliert | Oberflächlich |
| Stil-Vielfalt | Divers | Homogen |
Warum ist das ein Problem?
Das Internet wird zunehmend mit KI-generiertem Content geflutet. Wenn zukünftige Modelle auf diesem Content trainiert werden, droht ein Teufelskreis der Qualitätsverschlechterung.
Tail Collapse: Echte Daten folgen oft einer Long-Tail-Verteilung. KI-Modelle approximieren diese Verteilung, aber:
Echte Verteilung: ████████████▃▂▁▁▁▁▁▁
Gen 1: ████████████▂▁
Gen 2: ████████████▁
Gen 3: ████████████
↑ Nur noch "Durchschnitt"
Studie “The Curse of Recursion” (2023):
Beobachtungen 2025/26:
1. Daten-Filterung:
# Beispiel: KI-Content filtern
def filter_training_data(documents):
clean_docs = []
for doc in documents:
ai_score = detect_ai_content(doc)
if ai_score < 0.3: # Wahrscheinlich menschlich
clean_docs.append(doc)
return clean_docs
2. Daten-Mixing:
3. Provenienz-Tracking:
4. Regularisierung:
Für Modell-Entwickler:
Für Content-Ersteller:
Für Unternehmen:
Nein, aber mit Vorsicht:
| Szenario | Risiko | Empfehlung |
|---|---|---|
| Distillation (groß → klein) | Niedrig | OK |
| Data Augmentation | Niedrig | OK mit echten Daten |
| Iteratives Self-Training | Hoch | Vorsicht |
| Training auf Web-Crawl 2026 | Hoch | Filtern |
Model Collapse ist wie stille Post mit Kopierern: Wenn du eine Kopie einer Kopie einer Kopie machst, wird das Bild immer unschärfer – bis am Ende nur noch Rauschen übrig ist.
Tritt auf, wenn Modelle auf synthetischen Daten trainiert werden
Jede Generation verliert Varianz und Qualität
Großes Problem für zukünftiges LLM-Training, da das Internet mit KI-Content geflutet wird
Datenqualitätssicherung
Sicherstellen, dass Trainingsdaten nicht von KI generiert wurden
Synthetic Data Strategie
Synthetische Daten nur gezielt und mit echten Daten gemischt einsetzen
Content-Authentizität
Kennzeichnung von KI-Content für zukünftige Filterung
Modell-Evaluation
Überwachung auf Anzeichen von Collapse bei iterativem Training
KI-generierte Daten haben weniger Varianz als echte Daten. Seltene aber wichtige Muster (Tail der Verteilung) gehen verloren. Über Generationen verstärkt sich dieser Effekt.
Es wird geschätzt, dass 2026 bereits 20-30% des Web-Contents KI-generiert ist. Für zukünftiges Training ist das ein ernstes Problem – hochwertige Pre-2023-Daten werden wertvoller.
Echte Daten priorisieren, synthetische Daten nur als Ergänzung, KI-Content filtern, Daten-Provenienz tracken, Diversität in Trainingsdaten sicherstellen.
Ja, besonders wenn Fine-Tuning-Daten von anderen Modellen generiert wurden. Distillation von starken zu schwachen Modellen ist weniger problematisch als iteratives Self-Training.