Banner Online Kompaktkurse für fundiertes Wissen zu neuesten Gesesetzesänderungen und Abrechnungskriterien
Abo

Teil 1 – Anforderungen und Techniken : Anonymisierung von personenbezogenen Daten

Die Nutzung personenbezogener Daten wird durch die Datenschutz-Grundverordnung (DS-GVO) sowie weitere Datenschutzgesetze reguliert und beschränkt. Anonyme Daten unterliegen indes keiner vergleichbaren Verwertungsbeschränkung.

Lesezeit 10 Min.

Ein Personenbezug von Daten ergibt sich nicht nur, wenn iden­tifizierende Datenfelder wie z. B. Name oder Personalnummer im Datensatz enthalten sind. Vielmehr kann eine Kombination verschiedener Merkmale ebenfalls zu einem Personenbezug führen. Selbst dann, wenn keine identifizierenden Datenfelder vorhanden sind. Beispielsweise kann die Merkmalskombination „Vertriebsmitarbeiter“, „männlich“, „30 Jahre alt“ bereits perso­nenbezogen sein, wenn im Unternehmen die Merkmale nur auf eine Person zutreffen.

Aus Sicht des Erwägungsgrundes 26 DS-GVO sind Daten ano­nym, wenn unter der Berücksichtigung aller Mittel, die nach allgemeinem Ermessen wahrscheinlich genutzt werden, um die natürliche Person direkt oder indirekt zu identifizieren, ein Personenbezug nicht hergestellt werden kann. Bei den zu berücksichtigenden Mitteln sind alle objektiven Faktoren, wie die verfügbaren Techniken, die technologischen Entwicklun­gen, die Kosten der Identifizierung und der dafür erforderliche Zeitaufwand, heranzuziehen. Da sich die Technik stetig wei­terentwickelt, können Daten, die heute anonym sind, morgen personenbezogen sein. Wer Daten anonymisiert oder anony­misierte Daten nutzt, ist folglich verpflichtet, kontinuierlich zu prüfen, dass die Anonymisierung gewahrt bleibt. (Stellung­nahme 5/2014 der Artikel-29-Datenschutzgruppe zu Anony­misierungstechniken, WP 216, S. 4)

Eine absolute Anonymisierung, d. h. sicherzustellen, dass der Personenbezug von niemandem jemals wiederhergestellt wer­den kann, wird von der DS-GVO nicht gefordert. In der Praxis wäre eine absolute Anonymisierung zudem schwer umsetzbar.

Bei der Prüfung, ob Daten anonym sind, ist auf das Wissen und die Fähigkeiten der Stellen abzustellen, die auf die Daten zugreifen können. Erlaubt beispielsweise der personenbezo­gene Rohdatensatz, die Anonymisierung aufzuheben, liegt keine Anonymisierung vor.

Von anonymen Daten zu unterscheiden, sind pseudonyme Daten. Pseudonyme Daten sind personenbezogene Daten, bei denen der Personenbezug durch Identifikatoren ver­schleiert wird. Weil bei pseudonymen Daten der Perso­nenbezug herstellbar bleibt, werden pseudonyme Daten datenschutzrechtlich wie personenbezogene Daten behandelt, d. h. die DS-GVO wird weiterhin auf diese Daten angewendet.

Um in den Genuss einer „DS-GVO-Freiheit“ zu kommen, sind personenbezogene Daten zu anonymisieren.

Anonymisierung
Anonymisierung

Technische Anforderung an Anonymisierungsverfahren

Es gibt nicht das „eine“ Verfahren zur Anonymisierung. Bei­spielsweise kann eine Liste der Bruttogehälter in einem Unter­nehmen mit 30 Beschäftigten personenbezogen sein, da die Kombination aus in dem Listen enthaltenen hohem Gehalt und Wissen um die Hierarchie und das Lebensalter womöglich ausreicht, um die Gehälter den Beschäftigten zuzuordnen. Sobald die Zuordnung für eine Person gelingt, ist die gesamte Liste personenbezogen. Folglich sind bei einer Anonymisierung immer die vorhandenen Daten und der Kontext der Verarbei­tung zu berücksichtigen.

Die europäischen Datenschutzaufsichtsbehörden haben 2014 im Working Paper 216 (damals als „Artikel-29-Datenschutz­gruppe“) drei Arten von Risiken herausgearbeitet, die dazu füh­ren können, dass der Personenbezug wiederhergestellt wird:

  • Herausgreifen („singling out“): Herausgreifen ausgewähl­ter Datensätze aus einem Datenbestand, um eine Person zu identifizieren.
  • Verknüpfbarkeit: Verknüpfung von mindestens zwei Daten­sätzen aus einer oder mehreren Datenbeständen, die zu der­selben Person gehören. Die Verknüpfung kann beispielsweise mit statistischen Verfahren erfolgen, d. h. es reicht für die Feststellung des Personenbezugs aus, dass eine Wahrschein­lichkeit besteht, dass zwei Datensätze zur gleichen Person gehören.
  • Inferenz: Ableitung mit einer signifikanten Wahrscheinlichkeit eines Merkmals von den Werten anderer im Datenbestand vorhandener Merkmale.

Bei der Prüfung, ob Daten anonym sind, kommt es nicht auf sichere oder richtige Erkenntnisse an. Vielmehr reicht es aus, dass ein Personenbezug mit einer gewissen Wahrscheinlichkeit oder für einen Teil der Datensätze wiederhergestellt werden kann.

Um zu prüfen, ob Datensätze anonym sind, wird versucht, einen Personenbezug wiederherzustellen. Dazu werden die oben als „Risiken“ bezeichneten Vorgehensweisen durchpro­biert. Scheitern alle Versuche, kann von der Anonymität ausge­gangen werden.

Damit sind die Anforderungen an Anonymisierungsverfahren hoch.

Ausgewählte Verfahren zur Anonymisierung

An Anonymisierungsverfahren wird fortlaufend geforscht, d. h. neue Verfahren werden entwickelt und es wird versucht, beste­hende Verfahren zu „brechen“. Insofern stellt eine Übersicht immer eine Momentaufnahme dar.

Anonymisierungsverfahren lassen sich in zwei Klassen einteilen:

  • Randomisierung,
  • Generalisierung.

Ob die Verwendung eines Verfahrens ausreicht oder ob meh­rere Verfahren kombiniert werden müssen, um Anonymität zu erreichen, ist im Einzelfall zu beurteilen. Die bekannten Verfah­ren werden im Folgenden beschrieben.

Verfahren der Randomisierung

Die Grundidee der Randomisierung besteht in der zufälligen Veränderung von Werten. Dadurch werden die Daten so ver­fälscht, dass die direkte Verbindung zwischen Daten und Per­son aufgehoben wird. Gleichwohl verbleibt für die Person ein (verfälschter) Datensatz im Datenbestand. Die Randomisierung reduziert Inferenzrisiken. Auf welche Art und Weise die Werte verändert werden, hängt vom gewählten Verfahren ab.

Stochastische Überlagerung

Bei der stochastischen Überlagerung werden einzelne Daten­felder im Datensatz verfremdet. Die Veränderung ist so vorzu­nehmen, dass die statistische Verteilung der ursprünglichen Werte nicht verändert wird. Weiterhin darf die Veränderung pro Datenfeld nicht vorhersagbar sein. Beispielsweise reicht es nicht aus, alle Gehaltsdaten um 50 Euro zu erhöhen, da die ursprünglichen Werte durch Subtraktion von 50 Euro errechen­bar wären.

Wenn jedoch ein zufälliger Wert zwischen −50 und +50 Euro hinzuaddiert würde, ließen sich die ursprünglichen Werte nicht mehr errechnen. Setzt man die maximal mögliche Ver­änderung, im Beispiel waren das 50 Euro, in das Verhältnis zu dem maximalen Grundwert, etwa 100.000 Euro Jahres­gehalt, dann bekommt man ein Maß für den Informations­verlust. Je kleiner der Informationsverlust, desto höher das Risiko, dass der Personenbezug wiederhergestellt wird. Im Beispiel beträgt der Informationsverlust 0,5 % (50 Euro / 100.000 Euro = 0,5 %), d. h. er wäre für eine Anonymisierung nicht ausreichend.

Stochastische Überlagerung reicht häufig zur Anonymisierung nicht aus, d. h. sie muss durch weitere Techniken ergänzt wer­den. Auf qualitative Daten, z. B. Positionsbezeichnungen wie „Vertriebsmitarbeiter“ und „Fahrer“, lässt sich das Verfahren nicht anwenden.

Anonymisierung 2-min
Anonymisierung 2-min

Vertauschung

Bei der Vertauschung werden die Werte der Datenfelder nicht verändert. Vielmehr werden Werte zwischen den Datensätzen vertauscht. Beispielsweise wird das Gehalt aus Datensatz „154“ mit dem Gehalt aus dem Datensatz „357“ vertauscht. Die Ori­ginaldaten bleiben also unverändert erhalten. Ihre Zuordnung zu den Datensätzen ist verändert, d. h. die Korrelation zwischen Wert und Person wird aufgehoben.

Sofern mehrere Werte in einem Datensatz in einer logischen Beziehung oder statistischen Korrelation stehen, etwa Position und Gehaltshöhe, und diese Beziehung nach der Anonymisie­rung erhalten bleiben soll, müssen alle zusammenhängen­den Datenfelder zusammen getauscht werden. Dann wird das Gehalt und die Position zwischen den Datensätzen „154“ und „357“ vertauscht.

Wird nur ein Datenfeld aus einer logischen Beziehung oder sta­tistischen Korrelation getauscht, d. h. Gehalt zwischen „154“ und „357“, aber nicht Position, kann ein Angreifer mit dem Wis­sen der Beziehung den Tausch rückgängig machen. Der Perso­nenbezug wäre wiederhergestellt.

Die Vorteile liegen in der Anwendbarkeit auch auf qualitative Daten und Erhalt der statistischen Verteilung. Der Informati­onsgehalt der getauschten Daten ändert sich im Unterschied zur stochastischen Überlagerung nicht.

Auch die Vertauschung allein reicht zur Anonymisierung regel­mäßig nicht aus. Sie muss mit anderen Verfahren kombiniert werden.

Differential Privacy

Die Verfahren stochastische Überlagerung und Vertauschung setzen voraus, dass der Originaldatenbestand nach Anwen­dung der Verfahren dem Nutzer der veränderten Daten nicht zur Verfügung steht (beispielsweise gelöscht wurde). Differen­tial Privacy ist ein Konzept, bei dem einem Nutzer eine einge­schränkte Sicht auf den Originaldatenbestand gewährt wird. Der Originaldatenbestand bleibt unverändert und personenbe­zogen. Die Sicht wird auf ausgewählte Datenfelder reduziert, deren Werte verändert angezeigt werden. Damit sieht der Nut­zer andere Daten, als im Originaldatensatz stehen. Wie die Ver­änderung erfolgen muss, hängt vom Einzelfall ab. Das Konzept der Differential Privacy liefert den mathematischen Rahmen und das Vorgehen, um die Veränderung zu bestimmen. Die Ver­änderung wird für jede Abfrage neu berechnet.

Durch mehrfache Abfrage der gleichen Daten lässt sich die Ver­änderung der Werte ermitteln und „herausrechnen“. Deshalb hängt der Schutz des Verfahrens auch davon ab, den Zugriff auf die anonymisierten Daten zu kontrollieren.

Verfahren der Generalisierung

Verfahren der Generalisierung verändern die Größenordnung von Werten. So wird die „Straße“ durch die zugehörige „Post­leitzahl“ ersetzt. Damit lässt sich das Herausgreifen einer Per­son vermeiden. Die Risiken Verknüpfbarkeit und Inferenz bleiben im Grunde bestehen.

Aggregation bzw. k-Anonymität

Aggregation bzw. k-Anonymität zielt darauf ab, Personen zu Gruppen zusammenzufassen. Personen in der gleichen Gruppe erhalten den gleichen Wert im Datenfeld. Beispielsweise wer­den Gehaltsdaten durch die Intervalle „20.000 bis 30.000“ und „30.000 bis 40.000“ ersetzt. Bei der Bildung der Gruppen ist sicherzustellen, dass in jeder Gruppe mindestens „k“ Personen sind. Der Parameter k beschreibt die Gruppengröße. Je grö­ßer die Gruppe, desto besser der Schutz vor dem Herausgreifen einzelner Personen. Auf der anderen Seite sinkt für ein steigen­des k der Informationsgehalt. Das Intervall „1 bis 100 Mio.“ wäre für ein Jahresgehalt nicht sehr aussagekräftig.

Für den Schutz des Verfahrens ist es wichtig, dass alle für eine Identifikation geeigneten Datenfelder („Quasi-Identifikatoren“) in die Gruppenbildung einbezogen werden. Andernfalls können die unverfälschten Werte der Quasi-Identifikatoren genutzt werden, um Personen aus einer Gruppe zu identifizieren.

l-Diversität und t-Closeness

Die l-Diversität entwickelt das Konzept der k-Anonymität wei­ter. Wie häufig einzelne Werte in der Gruppe k vorkamen, war bei der k-Anonymität nicht festgelegt. Beispiel: Ein Datenbe­stand enthält das Alter und das Gehalt. Das Gehalt wurde nach der k-Anonymität zu Gruppen zusammengefasst. In der Gruppe „20.000 bis 30.000 Euro Gehalt“ sind die Personen A (30 Jahre), B (35 Jahre) und in der Gruppe „30.000 bis 40.000 Euro“ die Personen C (65 Jahre) und D (43 Jahre). Laut eines Soci­al-Media-Profils weiß ein Angreifer, dass ein 65-Jähriger im Unternehmen arbeitet. Aus dem „anonymisierten“ Datenbe­stand ergibt sich, dass der 65-Jährige 30.000 bis 40.000 Euro verdient.

Wären im obigen Beispiel nicht ein 65-Jähriger, sondern fünf 65-Jährige in drei verschiedenen Gehaltsintervallen vorhan­den gewesen, dann wäre die Anonymität gewahrt geblieben. Hier setzt die l-Diversität an. Pro Klasse, die Gehaltsintervalle im Beispiel, muss jedes Datenfeld mindestens l verschiedene Werte aufweisen. Im Beispiel wären das mindestens l 30-Jäh­rige, l 35-Jährige usw. Die Anwendbarkeit der l-Diversität setzt voraus, dass im Originaldatenbestand hinreichend viele Perso­nen mit den gleichen Werten vorhanden sind.

t-Closeness erweitert die l-Diversität um eine dritte Anforde­rung. In den Klassen soll die Verteilung der Werte der Vertei­lung der Originalwerte entsprechen. Damit sind die Datensätze so in Gruppen einzuteilen, dass mindestens k Datensätze (Per­sonen) in einer Gruppe sind, jeder Wert mindestens l-mal vor­kommt und jeder Wert in der Gruppe so oft vorkommt, wie er im Originaldatensatz über alle Datensätze hinweg betrach­tet vorkommt. Es kann passieren, dass ein Datenbestand zu wenige Daten aufweist, um diese Anforderungen einzuhalten. Dann lässt sich das Konzept nicht umsetzen.

Wo bleibt der Hash?

Eine Hash-Funktion ist ein mathematisches Verfahren, eine Zei­chenkette, etwa den Namen oder das Gehalt, durch eine andere Zeichenkette, die im Regelfall kürzer ist, zu ersetzen. Aus „Müller“ wird „362EF1“. Um zu erfahren, welcher Name sich hinter „362EF1“ verbirgt, muss ein Angreifer nur die Namen aller Beschäftigten durch die – ihm bekannte – Hash-Funk­tion berechnen lassen. Diese Berechnung würde für „Müller“ erneut „362EF1“ ausgeben. Die „Anonymität“ wäre aufgehoben. Zwar gibt es Verfahren, dem Hash-Wert zufällige Werte „bei­zumischen“ („Salz und Pfeffer“ genannt), die dafür sorgen, dass „Müller“ zu unterschiedlichen „Hash-Werten“ führt. Allerdings wird dabei die statistische Verteilung der Werte zerstört, d. h. die so behandelten Daten verlieren ihre Aussagekraft.

Fazit

Anonyme Daten sind ein guter Weg, Daten jenseits der Ver­wendungsverbote des Datenschutzrechtes „frei“ nutzen zu können. Der Weg in die Freiheit gestaltet sich aufwendig, da sichergestellt werden muss, dass der Personenbezug nicht nachträglich durch Hinzuziehung von weiteren Datenbestän­den, Wissen über Zusammenhänge oder Personen wieder­hergestellt werden kann.

Übersicht Wirkung von Anonymisierungstechniken
Übersicht Wirkung von Anonymisierungstechniken

Dazu sind verschiedene Verfahren zur Veränderung der Daten geschickt zu kombinieren. Die nachfolgende Tabelle zur Übersicht Wirkung von Anonymisierungstechniken fasst die vorgestellten Verfahren hinsichtlich ihrer Wirkung auf die De-Anonymisierungsrisiken zusammen.

Nach der Anonymisierung ist durch das anonymisierende Unternehmen kritisch zu prüfen, dass der Personenbezug für alle oder einzelne Personen nicht wiederhergestellt werden kann. Werden anonymisierte Daten weitergegeben, muss das weitergebende Unternehmen bei dieser Prüfung auch die Datenbestände und das Wissen des Datenempfängers berücksichtigen. Die Prüfungen sind regelmäßig zu wieder­holen und ihre Ergebnisse sollten dokumentiert werden.

Dr. Niels Lepperhoff, Xamit Bewertungsgesellschaft mbH

Diesen Beitrag teilen: