Teil 1 – Anforderungen und Techniken : Anonymisierung von personenbezogenen Daten
Die Nutzung personenbezogener Daten wird durch die Datenschutz-Grundverordnung (DS-GVO) sowie weitere Datenschutzgesetze reguliert und beschränkt. Anonyme Daten unterliegen indes keiner vergleichbaren Verwertungsbeschränkung.
Ein Personenbezug von Daten ergibt sich nicht nur, wenn identifizierende Datenfelder wie z. B. Name oder Personalnummer im Datensatz enthalten sind. Vielmehr kann eine Kombination verschiedener Merkmale ebenfalls zu einem Personenbezug führen. Selbst dann, wenn keine identifizierenden Datenfelder vorhanden sind. Beispielsweise kann die Merkmalskombination „Vertriebsmitarbeiter“, „männlich“, „30 Jahre alt“ bereits personenbezogen sein, wenn im Unternehmen die Merkmale nur auf eine Person zutreffen.
Aus Sicht des Erwägungsgrundes 26 DS-GVO sind Daten anonym, wenn unter der Berücksichtigung aller Mittel, die nach allgemeinem Ermessen wahrscheinlich genutzt werden, um die natürliche Person direkt oder indirekt zu identifizieren, ein Personenbezug nicht hergestellt werden kann. Bei den zu berücksichtigenden Mitteln sind alle objektiven Faktoren, wie die verfügbaren Techniken, die technologischen Entwicklungen, die Kosten der Identifizierung und der dafür erforderliche Zeitaufwand, heranzuziehen. Da sich die Technik stetig weiterentwickelt, können Daten, die heute anonym sind, morgen personenbezogen sein. Wer Daten anonymisiert oder anonymisierte Daten nutzt, ist folglich verpflichtet, kontinuierlich zu prüfen, dass die Anonymisierung gewahrt bleibt. (Stellungnahme 5/2014 der Artikel-29-Datenschutzgruppe zu Anonymisierungstechniken, WP 216, S. 4)
Eine absolute Anonymisierung, d. h. sicherzustellen, dass der Personenbezug von niemandem jemals wiederhergestellt werden kann, wird von der DS-GVO nicht gefordert. In der Praxis wäre eine absolute Anonymisierung zudem schwer umsetzbar.
Bei der Prüfung, ob Daten anonym sind, ist auf das Wissen und die Fähigkeiten der Stellen abzustellen, die auf die Daten zugreifen können. Erlaubt beispielsweise der personenbezogene Rohdatensatz, die Anonymisierung aufzuheben, liegt keine Anonymisierung vor.
Von anonymen Daten zu unterscheiden, sind pseudonyme Daten. Pseudonyme Daten sind personenbezogene Daten, bei denen der Personenbezug durch Identifikatoren verschleiert wird. Weil bei pseudonymen Daten der Personenbezug herstellbar bleibt, werden pseudonyme Daten datenschutzrechtlich wie personenbezogene Daten behandelt, d. h. die DS-GVO wird weiterhin auf diese Daten angewendet.
Um in den Genuss einer „DS-GVO-Freiheit“ zu kommen, sind personenbezogene Daten zu anonymisieren.

Technische Anforderung an Anonymisierungsverfahren
Es gibt nicht das „eine“ Verfahren zur Anonymisierung. Beispielsweise kann eine Liste der Bruttogehälter in einem Unternehmen mit 30 Beschäftigten personenbezogen sein, da die Kombination aus in dem Listen enthaltenen hohem Gehalt und Wissen um die Hierarchie und das Lebensalter womöglich ausreicht, um die Gehälter den Beschäftigten zuzuordnen. Sobald die Zuordnung für eine Person gelingt, ist die gesamte Liste personenbezogen. Folglich sind bei einer Anonymisierung immer die vorhandenen Daten und der Kontext der Verarbeitung zu berücksichtigen.
Die europäischen Datenschutzaufsichtsbehörden haben 2014 im Working Paper 216 (damals als „Artikel-29-Datenschutzgruppe“) drei Arten von Risiken herausgearbeitet, die dazu führen können, dass der Personenbezug wiederhergestellt wird:
- Herausgreifen („singling out“): Herausgreifen ausgewählter Datensätze aus einem Datenbestand, um eine Person zu identifizieren.
- Verknüpfbarkeit: Verknüpfung von mindestens zwei Datensätzen aus einer oder mehreren Datenbeständen, die zu derselben Person gehören. Die Verknüpfung kann beispielsweise mit statistischen Verfahren erfolgen, d. h. es reicht für die Feststellung des Personenbezugs aus, dass eine Wahrscheinlichkeit besteht, dass zwei Datensätze zur gleichen Person gehören.
- Inferenz: Ableitung mit einer signifikanten Wahrscheinlichkeit eines Merkmals von den Werten anderer im Datenbestand vorhandener Merkmale.
Bei der Prüfung, ob Daten anonym sind, kommt es nicht auf sichere oder richtige Erkenntnisse an. Vielmehr reicht es aus, dass ein Personenbezug mit einer gewissen Wahrscheinlichkeit oder für einen Teil der Datensätze wiederhergestellt werden kann.
Um zu prüfen, ob Datensätze anonym sind, wird versucht, einen Personenbezug wiederherzustellen. Dazu werden die oben als „Risiken“ bezeichneten Vorgehensweisen durchprobiert. Scheitern alle Versuche, kann von der Anonymität ausgegangen werden.
Damit sind die Anforderungen an Anonymisierungsverfahren hoch.
Ausgewählte Verfahren zur Anonymisierung
An Anonymisierungsverfahren wird fortlaufend geforscht, d. h. neue Verfahren werden entwickelt und es wird versucht, bestehende Verfahren zu „brechen“. Insofern stellt eine Übersicht immer eine Momentaufnahme dar.
Anonymisierungsverfahren lassen sich in zwei Klassen einteilen:
- Randomisierung,
- Generalisierung.
Ob die Verwendung eines Verfahrens ausreicht oder ob mehrere Verfahren kombiniert werden müssen, um Anonymität zu erreichen, ist im Einzelfall zu beurteilen. Die bekannten Verfahren werden im Folgenden beschrieben.
Verfahren der Randomisierung
Die Grundidee der Randomisierung besteht in der zufälligen Veränderung von Werten. Dadurch werden die Daten so verfälscht, dass die direkte Verbindung zwischen Daten und Person aufgehoben wird. Gleichwohl verbleibt für die Person ein (verfälschter) Datensatz im Datenbestand. Die Randomisierung reduziert Inferenzrisiken. Auf welche Art und Weise die Werte verändert werden, hängt vom gewählten Verfahren ab.
Stochastische Überlagerung
Bei der stochastischen Überlagerung werden einzelne Datenfelder im Datensatz verfremdet. Die Veränderung ist so vorzunehmen, dass die statistische Verteilung der ursprünglichen Werte nicht verändert wird. Weiterhin darf die Veränderung pro Datenfeld nicht vorhersagbar sein. Beispielsweise reicht es nicht aus, alle Gehaltsdaten um 50 Euro zu erhöhen, da die ursprünglichen Werte durch Subtraktion von 50 Euro errechenbar wären.
Wenn jedoch ein zufälliger Wert zwischen −50 und +50 Euro hinzuaddiert würde, ließen sich die ursprünglichen Werte nicht mehr errechnen. Setzt man die maximal mögliche Veränderung, im Beispiel waren das 50 Euro, in das Verhältnis zu dem maximalen Grundwert, etwa 100.000 Euro Jahresgehalt, dann bekommt man ein Maß für den Informationsverlust. Je kleiner der Informationsverlust, desto höher das Risiko, dass der Personenbezug wiederhergestellt wird. Im Beispiel beträgt der Informationsverlust 0,5 % (50 Euro / 100.000 Euro = 0,5 %), d. h. er wäre für eine Anonymisierung nicht ausreichend.
Stochastische Überlagerung reicht häufig zur Anonymisierung nicht aus, d. h. sie muss durch weitere Techniken ergänzt werden. Auf qualitative Daten, z. B. Positionsbezeichnungen wie „Vertriebsmitarbeiter“ und „Fahrer“, lässt sich das Verfahren nicht anwenden.

Vertauschung
Bei der Vertauschung werden die Werte der Datenfelder nicht verändert. Vielmehr werden Werte zwischen den Datensätzen vertauscht. Beispielsweise wird das Gehalt aus Datensatz „154“ mit dem Gehalt aus dem Datensatz „357“ vertauscht. Die Originaldaten bleiben also unverändert erhalten. Ihre Zuordnung zu den Datensätzen ist verändert, d. h. die Korrelation zwischen Wert und Person wird aufgehoben.
Sofern mehrere Werte in einem Datensatz in einer logischen Beziehung oder statistischen Korrelation stehen, etwa Position und Gehaltshöhe, und diese Beziehung nach der Anonymisierung erhalten bleiben soll, müssen alle zusammenhängenden Datenfelder zusammen getauscht werden. Dann wird das Gehalt und die Position zwischen den Datensätzen „154“ und „357“ vertauscht.
Wird nur ein Datenfeld aus einer logischen Beziehung oder statistischen Korrelation getauscht, d. h. Gehalt zwischen „154“ und „357“, aber nicht Position, kann ein Angreifer mit dem Wissen der Beziehung den Tausch rückgängig machen. Der Personenbezug wäre wiederhergestellt.
Die Vorteile liegen in der Anwendbarkeit auch auf qualitative Daten und Erhalt der statistischen Verteilung. Der Informationsgehalt der getauschten Daten ändert sich im Unterschied zur stochastischen Überlagerung nicht.
Auch die Vertauschung allein reicht zur Anonymisierung regelmäßig nicht aus. Sie muss mit anderen Verfahren kombiniert werden.
Differential Privacy
Die Verfahren stochastische Überlagerung und Vertauschung setzen voraus, dass der Originaldatenbestand nach Anwendung der Verfahren dem Nutzer der veränderten Daten nicht zur Verfügung steht (beispielsweise gelöscht wurde). Differential Privacy ist ein Konzept, bei dem einem Nutzer eine eingeschränkte Sicht auf den Originaldatenbestand gewährt wird. Der Originaldatenbestand bleibt unverändert und personenbezogen. Die Sicht wird auf ausgewählte Datenfelder reduziert, deren Werte verändert angezeigt werden. Damit sieht der Nutzer andere Daten, als im Originaldatensatz stehen. Wie die Veränderung erfolgen muss, hängt vom Einzelfall ab. Das Konzept der Differential Privacy liefert den mathematischen Rahmen und das Vorgehen, um die Veränderung zu bestimmen. Die Veränderung wird für jede Abfrage neu berechnet.
Durch mehrfache Abfrage der gleichen Daten lässt sich die Veränderung der Werte ermitteln und „herausrechnen“. Deshalb hängt der Schutz des Verfahrens auch davon ab, den Zugriff auf die anonymisierten Daten zu kontrollieren.
Verfahren der Generalisierung
Verfahren der Generalisierung verändern die Größenordnung von Werten. So wird die „Straße“ durch die zugehörige „Postleitzahl“ ersetzt. Damit lässt sich das Herausgreifen einer Person vermeiden. Die Risiken Verknüpfbarkeit und Inferenz bleiben im Grunde bestehen.
Aggregation bzw. k-Anonymität
Aggregation bzw. k-Anonymität zielt darauf ab, Personen zu Gruppen zusammenzufassen. Personen in der gleichen Gruppe erhalten den gleichen Wert im Datenfeld. Beispielsweise werden Gehaltsdaten durch die Intervalle „20.000 bis 30.000“ und „30.000 bis 40.000“ ersetzt. Bei der Bildung der Gruppen ist sicherzustellen, dass in jeder Gruppe mindestens „k“ Personen sind. Der Parameter k beschreibt die Gruppengröße. Je größer die Gruppe, desto besser der Schutz vor dem Herausgreifen einzelner Personen. Auf der anderen Seite sinkt für ein steigendes k der Informationsgehalt. Das Intervall „1 bis 100 Mio.“ wäre für ein Jahresgehalt nicht sehr aussagekräftig.
Für den Schutz des Verfahrens ist es wichtig, dass alle für eine Identifikation geeigneten Datenfelder („Quasi-Identifikatoren“) in die Gruppenbildung einbezogen werden. Andernfalls können die unverfälschten Werte der Quasi-Identifikatoren genutzt werden, um Personen aus einer Gruppe zu identifizieren.
l-Diversität und t-Closeness
Die l-Diversität entwickelt das Konzept der k-Anonymität weiter. Wie häufig einzelne Werte in der Gruppe k vorkamen, war bei der k-Anonymität nicht festgelegt. Beispiel: Ein Datenbestand enthält das Alter und das Gehalt. Das Gehalt wurde nach der k-Anonymität zu Gruppen zusammengefasst. In der Gruppe „20.000 bis 30.000 Euro Gehalt“ sind die Personen A (30 Jahre), B (35 Jahre) und in der Gruppe „30.000 bis 40.000 Euro“ die Personen C (65 Jahre) und D (43 Jahre). Laut eines Social-Media-Profils weiß ein Angreifer, dass ein 65-Jähriger im Unternehmen arbeitet. Aus dem „anonymisierten“ Datenbestand ergibt sich, dass der 65-Jährige 30.000 bis 40.000 Euro verdient.
Wären im obigen Beispiel nicht ein 65-Jähriger, sondern fünf 65-Jährige in drei verschiedenen Gehaltsintervallen vorhanden gewesen, dann wäre die Anonymität gewahrt geblieben. Hier setzt die l-Diversität an. Pro Klasse, die Gehaltsintervalle im Beispiel, muss jedes Datenfeld mindestens l verschiedene Werte aufweisen. Im Beispiel wären das mindestens l 30-Jährige, l 35-Jährige usw. Die Anwendbarkeit der l-Diversität setzt voraus, dass im Originaldatenbestand hinreichend viele Personen mit den gleichen Werten vorhanden sind.
t-Closeness erweitert die l-Diversität um eine dritte Anforderung. In den Klassen soll die Verteilung der Werte der Verteilung der Originalwerte entsprechen. Damit sind die Datensätze so in Gruppen einzuteilen, dass mindestens k Datensätze (Personen) in einer Gruppe sind, jeder Wert mindestens l-mal vorkommt und jeder Wert in der Gruppe so oft vorkommt, wie er im Originaldatensatz über alle Datensätze hinweg betrachtet vorkommt. Es kann passieren, dass ein Datenbestand zu wenige Daten aufweist, um diese Anforderungen einzuhalten. Dann lässt sich das Konzept nicht umsetzen.
Wo bleibt der Hash?
Eine Hash-Funktion ist ein mathematisches Verfahren, eine Zeichenkette, etwa den Namen oder das Gehalt, durch eine andere Zeichenkette, die im Regelfall kürzer ist, zu ersetzen. Aus „Müller“ wird „362EF1“. Um zu erfahren, welcher Name sich hinter „362EF1“ verbirgt, muss ein Angreifer nur die Namen aller Beschäftigten durch die – ihm bekannte – Hash-Funktion berechnen lassen. Diese Berechnung würde für „Müller“ erneut „362EF1“ ausgeben. Die „Anonymität“ wäre aufgehoben. Zwar gibt es Verfahren, dem Hash-Wert zufällige Werte „beizumischen“ („Salz und Pfeffer“ genannt), die dafür sorgen, dass „Müller“ zu unterschiedlichen „Hash-Werten“ führt. Allerdings wird dabei die statistische Verteilung der Werte zerstört, d. h. die so behandelten Daten verlieren ihre Aussagekraft.
Fazit
Anonyme Daten sind ein guter Weg, Daten jenseits der Verwendungsverbote des Datenschutzrechtes „frei“ nutzen zu können. Der Weg in die Freiheit gestaltet sich aufwendig, da sichergestellt werden muss, dass der Personenbezug nicht nachträglich durch Hinzuziehung von weiteren Datenbeständen, Wissen über Zusammenhänge oder Personen wiederhergestellt werden kann.

Dazu sind verschiedene Verfahren zur Veränderung der Daten geschickt zu kombinieren. Die nachfolgende Tabelle zur Übersicht Wirkung von Anonymisierungstechniken fasst die vorgestellten Verfahren hinsichtlich ihrer Wirkung auf die De-Anonymisierungsrisiken zusammen.
Nach der Anonymisierung ist durch das anonymisierende Unternehmen kritisch zu prüfen, dass der Personenbezug für alle oder einzelne Personen nicht wiederhergestellt werden kann. Werden anonymisierte Daten weitergegeben, muss das weitergebende Unternehmen bei dieser Prüfung auch die Datenbestände und das Wissen des Datenempfängers berücksichtigen. Die Prüfungen sind regelmäßig zu wiederholen und ihre Ergebnisse sollten dokumentiert werden.
Dr. Niels Lepperhoff, Xamit Bewertungsgesellschaft mbH

