Datenschutz (DSGVO-Kontext)
Der Schutz personenbezogener Daten bei der Entwicklung und dem Einsatz von KI-Systemen – mit besonderem Fokus auf die europäische Datenschutz-Grundverordnung.
Eine Trainingsmethode, bei der das Modell zu den Daten kommt statt umgekehrt – Daten bleiben lokal, nur Modell-Updates werden geteilt.
Federated Learning ist eine Trainingsmethode, bei der das Modell zu den Daten kommt – nicht umgekehrt. Die Daten bleiben lokal, nur Modell-Updates werden geteilt.
Warum ist das wichtig?
In vielen Bereichen (Medizin, Finanzen, Mobile) dürfen Daten nicht zentralisiert werden. Federated Learning ermöglicht trotzdem gemeinsames Training.
Zentral: [Daten A] + [Daten B] + [Daten C] → Server → Modell
Federated: [Daten A → Update A] ↘
[Daten B → Update B] → Server aggregiert → Globales Modell
[Daten C → Update C] ↗
Praxis-Beispiel: Google nutzt Federated Learning für Gboard (Tastatur-Vorhersagen) – das Modell lernt aus deinem Tippverhalten, ohne dass deine Eingaben an Google gesendet werden.
Gesundheitswesen: Verschiedene Krankenhäuser können ihre Patientendaten nutzen, um ein gemeinsames Modell zur Krankheitsvorhersage zu trainieren, ohne sensible Daten zu teilen.
Smartphones: Mobile Geräte können lokale Tastatureingaben verwenden, um ein personalisiertes Sprachmodell zu trainieren, das die Privatsphäre der Nutzer respektiert.
Finanzsektor: Banken können gemeinsam an einem Modell zur Betrugserkennung arbeiten, ohne dass Kundendaten das jeweilige Institut verlassen.
Federated Learning wurde erstmals 2016 von Google eingeführt, um maschinelles Lernen auf mobilen Geräten zu ermöglichen, ohne dass persönliche Daten die Geräte verlassen. Diese Methode hat sich seitdem weiterentwickelt und findet Anwendung in verschiedenen Bereichen, von der Gesundheitsforschung bis hin zu Finanzdienstleistungen. Die wachsende Bedeutung von Datenschutz und Datensicherheit hat das Interesse an Federated Learning in den letzten Jahren erheblich gesteigert.
Federated Learning ist wie eine Studie mit mehreren Krankenhäusern: Kein Krankenhaus gibt Patientendaten heraus. Stattdessen trainiert jedes lokal und teilt nur die Erkenntnisse (Modell-Updates).
Daten bleiben auf dem Gerät/Server – nur Modell-Gradienten werden geteilt
Ideal für datenschutzsensible Bereiche: Medizin, Finanzen, Mobile
Google nutzt es für Gboard (Tastatur-Vorhersagen) ohne Nutzerdaten zu sammeln
Medizin
Krankenhäuser trainieren gemeinsam ein Diagnose-Modell ohne Patientendaten zu teilen
Mobile Keyboards
Tastatur-Vorhersagen verbessern ohne Nutzereingaben an Server zu senden
Finanzsektor
Banken erkennen gemeinsam Betrug ohne Transaktionsdaten auszutauschen
Besser als zentrales Training, aber nicht perfekt. Aus Modell-Updates können theoretisch Informationen über die Daten rekonstruiert werden. Kombination mit Differential Privacy erhöht den Schutz.
Ja, durch Kommunikations-Overhead und heterogene Datenverteilung. Aber für datenschutzsensible Anwendungen ist es oft die einzige Option.
Im Federated Learning bleiben die Daten lokal auf den Geräten der Nutzer. Nur die Modell-Updates, die aus den lokalen Daten abgeleitet werden, werden an den zentralen Server gesendet, wodurch die Privatsphäre der Daten geschützt bleibt.
Federated Learning ist besonders nützlich in Bereichen wie Gesundheitswesen, wo sensible Patientendaten nicht zentralisiert werden sollten, oder in mobilen Anwendungen, wo Nutzerdaten lokal verarbeitet werden müssen, um die Privatsphäre zu wahren.