Supervised Learning
Eine Machine-Learning-Methode, bei der ein Modell aus gelabelten Beispieldaten lernt – also aus Eingaben mit bekannter korrekter Ausgabe.
Eine Lernmethode, bei der das Modell sich selbst Trainingsaufgaben aus ungelabelten Daten erstellt – die Grundlage für das Pre-Training moderner LLMs.
Self-Supervised Learning ist der Trick, mit dem moderne KI-Modelle aus riesigen Datenmengen lernen, ohne dass ein Mensch jedes Beispiel labeln muss. Das Modell erstellt sich seine Trainingsaufgaben selbst. Diese Methode ist der Schlüssel zu den enormen Fähigkeiten moderner Foundation Models: GPT-5 wurde auf Billionen von Tokens trainiert, ohne dass ein einziges davon manuell gelabelt wurde. Das Modell lernte einfach, das nächste Wort vorherzusagen – und entwickelte dabei ein tiefes Verständnis von Sprache, Logik und Weltwissen. Self-Supervised Learning ist auch der Schlüssel für andere Modalitäten: Für Bilder lernen Modelle, maskierte Bildausschnitte zu rekonstruieren (MAE). Für Audio lernen sie, maskierte Zeitabschnitte vorherzusagen (wav2vec). Das Prinzip ist immer dasselbe: Die Daten selbst liefern das Lern-Signal.
Die zwei wichtigsten Varianten:
| Methode | Prinzip | Verwendet in |
|---|---|---|
| Next Token Prediction | Sage das nächste Wort vorher | GPT, Llama, Gemini |
| Masked Language Modeling | Fülle verdeckte Wörter ein | BERT, RoBERTa |
Beispiel Next Token Prediction:
Eingabe: "Die Katze sitzt auf dem"
Ziel: "Dach" (oder "Tisch", "Sofa", ...)
Das Modell lernt dabei automatisch Grammatik, Fakten, Logik und Zusammenhänge – alles aus der Aufgabe, das nächste Wort vorherzusagen.
Um das nächste Wort korrekt vorherzusagen, muss das Modell implizit lernen:
Diese “emergenten Fähigkeiten” entstehen als Nebenprodukt der einfachen Vorhersageaufgabe – besonders bei großen Modellen mit vielen Parametern.
Self-Supervised Learning ist wie ein Lückentext-Spiel: Du verdeckst ein Wort in einem Satz und versuchst, es zu erraten. Dabei lernst du automatisch Grammatik, Vokabular und Zusammenhänge – ohne dass dir jemand Regeln erklärt.
Das Modell generiert seine eigenen Labels aus den Rohdaten (z.B. verdeckte Wörter vorhersagen)
Ermöglicht Training auf riesigen ungelabelten Datenmengen
Grundlage für GPT (Next Token Prediction) und BERT (Masked Language Modeling)
LLM Pre-Training
GPT lernt durch Next Token Prediction auf Billionen von Tokens
Computer Vision
Modelle wie DINO lernen Bildrepräsentationen ohne gelabelte Bilder
Sprachmodelle
BERT lernt durch Masked Language Modeling – verdeckte Wörter vorhersagen
Nein. Unsupervised Learning findet Strukturen (Clustering, Dimensionsreduktion). Self-Supervised Learning erstellt sich selbst Supervised-Learning-Aufgaben aus ungelabelten Daten. Es ist eine Brücke zwischen beiden Welten.
Weil gelabelte Daten teuer und begrenzt sind, ungelabelte Daten aber quasi unbegrenzt verfügbar. Self-Supervised Learning nutzt diese riesigen Datenmengen und ist die Grundlage für die Leistungsfähigkeit moderner LLMs.
Self-Supervised Learning ermöglicht es Modellen, aus großen Mengen unlabeled Daten zu lernen, was die Notwendigkeit für teure und zeitaufwändige Annotationen verringert. Dies führt zu einer besseren Nutzung von verfügbaren Daten und kann die Leistung des Modells in downstream Aufgaben erheblich verbessern.
Um Self-Supervised Learning in Ihrem Projekt zu implementieren, sollten Sie zunächst geeignete Aufgaben definieren, die das Modell selbst generieren kann, wie z.B. Maskierung oder Vorhersage von Sequenzen. Nutzen Sie bestehende Frameworks und Bibliotheken, die diese Techniken unterstützen, um den Implementierungsaufwand zu minimieren.