<EbeneX/>
Grundlagen · Updated 3. März 2026

Machine Learning (ML)

Definition

Ein Teilbereich der KI, bei dem Algorithmen aus Daten lernen und Vorhersagen treffen, ohne explizit programmiert zu werden.

Einsteiger 3 Min. Lesezeit EN: Grundlagen

Einfach erklärt

Machine Learning (ML) ist eine Methode, bei der Computer aus Daten lernen, anstatt für jede Aufgabe explizit programmiert zu werden. Statt dem Computer zu sagen “wenn X, dann Y”, gibst du ihm Beispiele und er findet die Regeln selbst.

Die drei Hauptarten von Machine Learning:

  1. Supervised Learning (Überwachtes Lernen): Das Modell lernt aus gelabelten Beispielen. Du zeigst ihm Bilder mit der Beschriftung “Katze” oder “Hund”, und es lernt die Unterschiede.

  2. Unsupervised Learning (Unüberwachtes Lernen): Das Modell findet selbst Muster in Daten ohne Labels. Zum Beispiel Kundensegmentierung – das Modell gruppiert ähnliche Kunden automatisch.

  3. Reinforcement Learning (Bestärkendes Lernen): Das Modell lernt durch Versuch und Irrtum mit Belohnungen. So lernte AlphaGo, Go zu spielen – durch Millionen von Spielen gegen sich selbst.

Ein einfaches Beispiel:

Stell dir vor, du willst vorhersagen, ob ein Kunde kündigt:

  1. Du sammelst historische Daten (Nutzungsverhalten, Beschwerden, Vertragslaufzeit)
  2. Du markierst, welche Kunden gekündigt haben und welche nicht
  3. Ein ML-Algorithmus findet Muster: “Kunden, die 3 Monate nicht eingeloggt waren und eine Beschwerde hatten, kündigen zu 80%”
  4. Das Modell kann nun für neue Kunden eine Vorhersage treffen

Technischer Deep Dive

Supervised Learning im Detail

Die häufigste Form von ML. Das Modell lernt eine Funktion f(X) → Y aus gelabelten Trainingsdaten.

Klassifikation (diskrete Ausgabe):

  • Logistische Regression
  • Support Vector Machines (SVM)
  • Random Forest / Decision Trees
  • Gradient Boosting (XGBoost, LightGBM)
  • Neuronale Netze

Regression (kontinuierliche Ausgabe):

  • Lineare Regression
  • Polynomial Regression
  • Ridge / Lasso Regression
  • Gradient Boosting Regression

Unsupervised Learning im Detail

Findet Strukturen in ungelabelten Daten.

Clustering:

  • K-Means: Teilt Daten in k Gruppen basierend auf Distanz
  • DBSCAN: Findet Cluster beliebiger Form basierend auf Dichte
  • Hierarchisches Clustering: Baut eine Baumstruktur von Clustern

Dimensionsreduktion:

  • PCA (Principal Component Analysis): Reduziert Features auf die wichtigsten Komponenten
  • t-SNE / UMAP: Visualisierung hochdimensionaler Daten in 2D/3D

Der ML-Workflow

1. Datensammlung und -aufbereitung

  • Feature Engineering: Relevante Merkmale aus Rohdaten extrahieren
  • Datenbereinigung: Fehlende Werte, Ausreißer, Duplikate behandeln
  • Train/Test Split: Typisch 80/20 oder 70/15/15 (Train/Validation/Test)

2. Modellauswahl und Training

  • Baseline-Modell erstellen (z.B. einfache Regression)
  • Verschiedene Algorithmen vergleichen
  • Hyperparameter-Tuning (Grid Search, Random Search, Bayesian Optimization)

3. Evaluation

  • Accuracy: Anteil korrekter Vorhersagen
  • Precision: Wie viele der positiven Vorhersagen sind korrekt?
  • Recall: Wie viele der tatsächlich positiven Fälle wurden erkannt?
  • F1-Score: Harmonisches Mittel aus Precision und Recall
  • AUC-ROC: Fläche unter der ROC-Kurve

4. Deployment und Monitoring

  • Modell in Produktion bringen (API, Batch-Processing)
  • Performance überwachen (Model Drift, Data Drift)
  • Regelmäßiges Retraining mit neuen Daten

Häufige Probleme

Overfitting:

Underfitting:

  • Modell ist zu einfach für die Daten
  • Lösung: Komplexeres Modell, mehr Features, weniger Regularisierung

Bias-Variance Tradeoff:

  • Hoher Bias = Underfitting (zu einfach)
  • Hohe Varianz = Overfitting (zu komplex)
  • Ziel: Optimaler Kompromiss zwischen beiden

Machine Learning ist wie ein Kind, das lernt, Hunde von Katzen zu unterscheiden – nicht durch Regeln ('Hunde haben längere Schnauzen'), sondern indem es tausende Bilder sieht und selbst Muster erkennt.

Algorithmen lernen automatisch Muster und Zusammenhänge aus Daten

Drei Hauptkategorien: Supervised, Unsupervised und Reinforcement Learning

Grundlage für moderne KI-Anwendungen von Empfehlungssystemen bis Spracherkennung

Spam-Erkennung

E-Mail-Filter lernen aus markierten Beispielen, welche Nachrichten Spam sind

Empfehlungssysteme

Netflix, Spotify und Amazon nutzen ML, um personalisierte Vorschläge zu machen

Predictive Maintenance

Vorhersage von Maschinenausfällen in der Industrie anhand von Sensordaten

Kreditscoring

Banken bewerten Kreditwürdigkeit basierend auf historischen Daten

Was ist der Unterschied zwischen Machine Learning und Deep Learning?

Deep Learning ist ein Teilbereich von Machine Learning, der tiefe neuronale Netze mit vielen Schichten verwendet. Klassisches ML nutzt oft einfachere Algorithmen wie Entscheidungsbäume oder lineare Regression. Deep Learning braucht mehr Daten und Rechenleistung, kann aber komplexere Muster erkennen.

Braucht man für Machine Learning immer große Datenmengen?

Nicht unbedingt. Klassische ML-Algorithmen wie Random Forests können schon mit wenigen hundert Datenpunkten gute Ergebnisse liefern. Deep Learning braucht typischerweise mehr Daten. Techniken wie Transfer Learning und Data Augmentation helfen bei kleinen Datensätzen.

Kann Machine Learning auch falsche Ergebnisse liefern?

Ja. ML-Modelle können durch schlechte Trainingsdaten, Overfitting oder Bias fehlerhafte Vorhersagen treffen. Deshalb sind Evaluation, Testing und menschliche Überprüfung essenziell.

Welche Programmiersprache braucht man für Machine Learning?

Python ist der De-facto-Standard mit Bibliotheken wie scikit-learn, TensorFlow und PyTorch. R wird in der Statistik genutzt, Julia für High-Performance-Computing. Für Produktion kommen auch Java, C++ und Rust zum Einsatz.

Dein persönliches Share-Bild für Instagram – 1080×1080px, bereit zum Posten.