<EbeneX/>
Sicherheit Daten · Updated 17. Februar 2026

Anonymisierung / Pseudonymisierung

Definition

Techniken zum Schutz personenbezogener Daten: Anonymisierung entfernt den Personenbezug unwiderruflich, Pseudonymisierung ersetzt ihn durch Kennzeichen.

Fortgeschritten 4 Min. Lesezeit EN: Anonymization / Pseudonymization

Einfach erklärt

Anonymisierung und Pseudonymisierung sind zwei Techniken zum Schutz personenbezogener Daten, die sich in einem entscheidenden Punkt unterscheiden: Reversibilität. Anonymisierung entfernt alle Merkmale, die eine Re-Identifizierung ermöglichen – das Ergebnis fällt nicht mehr unter die DSGVO. Pseudonymisierung ersetzt identifizierende Merkmale durch Pseudonyme – die Daten sind weiterhin personenbezogen, aber das Risiko ist reduziert. Für KI-Trainingsdaten ist dieser Unterschied rechtlich und praktisch entscheidend.

Beide Techniken schützen personenbezogene Daten, aber auf unterschiedliche Weise – und mit unterschiedlichen rechtlichen Konsequenzen. Der Unterschied ist für KI-Projekte entscheidend, weil er bestimmt, ob die DSGVO noch gilt.

Bei der Anonymisierung werden personenbezogene Merkmale so entfernt, dass eine Re-Identifizierung unmöglich ist. Das Ergebnis fällt nicht mehr unter die DSGVO – ein enormer Vorteil für KI-Training. Bei der Pseudonymisierung werden Identifikatoren durch Pseudonyme ersetzt, aber der Schlüssel zur Re-Identifizierung existiert noch. Die DSGVO gilt weiterhin, aber das Risiko ist reduziert. Für KI-Trainingsdaten ist echte Anonymisierung das Ziel – in der Praxis aber schwer zu erreichen.

Der wichtige Unterschied:

AspektAnonymisierungPseudonymisierung
PersonenbezugUnwiderruflich entferntDurch Kennzeichen ersetzt
UmkehrbarNeinJa (mit Schlüssel)
DSGVONicht anwendbarWeiterhin anwendbar
DatennutzenReduziertWeitgehend erhalten
BeispielAlle Namen gelöscht”Max Müller” → “ID-4829”

Für KI-Trainingsdaten: Echte Anonymisierung ist schwierig – LLMs können aus scheinbar anonymisierten Daten Personen re-identifizieren. Differential Privacy bietet stärkere Garantien.

Technischer Deep Dive

Anonymisierungstechniken

  • k-Anonymity: Jeder Datensatz ist von mindestens k-1 anderen nicht unterscheidbar
  • l-Diversity: Jede Gruppe hat mindestens l verschiedene Werte für sensible Attribute
  • t-Closeness: Verteilung sensibler Attribute in Gruppen ähnelt der Gesamtverteilung
  • Generalisierung: “25 Jahre” → “20-30 Jahre”, “Berlin” → “Deutschland”
  • Suppression: Zu identifizierende Werte werden entfernt

PII-Erkennung für KI

  • Named Entity Recognition: Erkennung von Namen, Adressen, Telefonnummern
  • Regex-basiert: Muster für E-Mails, IBANs, Sozialversicherungsnummern
  • ML-basiert: Trainierte Modelle für kontextabhängige PII-Erkennung
  • Kombination: Mehrere Methoden für höhere Erkennungsrate

Vor- und Nachteile

Anonymisierung

Vorteile:

  • Datenschutz: Vollständige Entfernung des Personenbezugs schützt vor Missbrauch.
  • Rechtliche Sicherheit: Erfüllt die Anforderungen der DSGVO in Bezug auf den Umgang mit personenbezogenen Daten.

Nachteile:

  • Datenverlust: Der Nutzen der Daten kann stark eingeschränkt werden, da keine Rückverfolgbarkeit mehr möglich ist.
  • Eingeschränkte Analyse: Anonymisierte Daten können für bestimmte Analysen unbrauchbar sein.

Pseudonymisierung

Vorteile:

  • Datenverwertbarkeit: Der Nutzen der Daten bleibt weitgehend erhalten, da sie weiterhin analysiert werden können.
  • Flexibilität: Erlaubt die Rückverfolgbarkeit bei Bedarf, z.B. für medizinische Studien.

Nachteile:

  • Risiko der Re-Identifizierung: Bei unsachgemäßer Handhabung oder unzureichendem Schutz der Schlüssel besteht die Gefahr, dass die Identität wiederhergestellt werden kann.
  • Komplexität: Erfordert ein robustes Schlüsselmanagement, um die Sicherheit zu gewährleisten.

Praxisbeispiele

Anonymisierung

Ein Unternehmen möchte Daten über seine Kunden sammeln, um Trends zu analysieren. Um den Datenschutz zu gewährleisten, anonymisiert es alle personenbezogenen Daten, indem es Namen, Adressen und andere identifizierende Informationen entfernt. Die analysierten Daten zeigen allgemeine Kauftrends, ohne dass Rückschlüsse auf individuelle Kunden möglich sind.

Pseudonymisierung

Ein Forschungsinstitut führt eine Studie zur Wirksamkeit eines neuen Medikaments durch. Die Teilnehmer werden durch Pseudonyme identifiziert (z.B. “Teilnehmer A”, “Teilnehmer B”), während ihre Gesundheitsdaten pseudonymisiert gespeichert werden. So kann das Institut die Daten analysieren, ohne die Identität der Teilnehmer preiszugeben. Bei Bedarf kann jedoch der Zugang zu den Originaldaten durch autorisierte Personen wiederhergestellt werden.

Historischer Kontext

Die Techniken der Anonymisierung und Pseudonymisierung haben sich mit der zunehmenden Digitalisierung und der Verarbeitung personenbezogener Daten entwickelt. In den letzten zwei Jahrzehnten, insbesondere mit der Einführung der Datenschutz-Grundverordnung (DSGVO) in der EU im Jahr 2018, haben diese Methoden an Bedeutung gewonnen. Unternehmen und Organisationen sind zunehmend verpflichtet, den Datenschutz ernst zu nehmen und innovative Lösungen zu finden, um die Privatsphäre der Nutzer zu schützen, während sie gleichzeitig den Wert der Daten nutzen können.

Anonymisierung ist wie das Schwärzen eines Namens in einem Dokument, sodass niemand mehr herausfinden kann, wer gemeint ist. Pseudonymisierung ist wie ein Deckname – mit dem richtigen Schlüssel kann man die Person wieder identifizieren.

Anonymisierung: Personenbezug wird unwiderruflich entfernt – Daten fallen nicht mehr unter die DSGVO

Pseudonymisierung: Personenbezug wird durch Kennzeichen ersetzt – Daten bleiben unter DSGVO, aber mit reduziertem Risiko

Wichtig für KI-Trainingsdaten und den Schutz von Nutzerdaten

KI-Trainingsdaten

Personenbezogene Daten vor dem Training anonymisieren oder pseudonymisieren

Medizinische Forschung

Patientendaten für KI-Forschung nutzbar machen ohne Identifizierbarkeit

Analytics

Nutzerverhalten analysieren ohne individuelle Identifikation

LLM-Output

PII in LLM-Antworten erkennen und maskieren

Wann reicht Pseudonymisierung, wann braucht man Anonymisierung?

Pseudonymisierung reicht, wenn die Daten unter kontrollierten Bedingungen verarbeitet werden und der Schlüssel sicher verwahrt ist. Anonymisierung ist nötig, wenn Daten veröffentlicht oder an Dritte weitergegeben werden sollen.

Ist echte Anonymisierung bei KI-Trainingsdaten möglich?

Schwierig. LLMs können aus scheinbar anonymisierten Daten Personen re-identifizieren (z.B. durch Kombination mehrerer Merkmale). Differential Privacy bietet mathematische Garantien, ist aber aufwändiger.

Wann sollte Anonymisierung statt Pseudonymisierung verwendet werden?

Anonymisierung sollte verwendet werden, wenn es wichtig ist, den Personenbezug unwiderruflich zu entfernen, beispielsweise bei der Analyse von Daten für Forschungszwecke. Pseudonymisierung ist sinnvoll, wenn Daten weiterhin für bestimmte Zwecke verwendet werden sollen, aber der Bezug zu Einzelpersonen geschützt werden muss.

Wie unterscheiden sich die rechtlichen Rahmenbedingungen für Anonymisierung und Pseudonymisierung?

Rechtlich gesehen unterliegt Anonymisierung nicht den Datenschutzbestimmungen, da die Daten nicht mehr personenbezogen sind. Pseudonymisierte Daten hingegen bleiben unter den Datenschutzgesetzen, da sie theoretisch wiederhergestellt werden können.

Dein persönliches Share-Bild für Instagram – 1080×1080px, bereit zum Posten.