Datenschutz : Künstliche Intelligenz – die Nutzung angehen
Anbieter beispielsweise von Bürosoftware, Suchmaschinen und Customer--Relationship-Management-Systemen (CRM) überbieten sich in Ankündigungen, dass sie künstliche Intelligenz (KI) in ihre Produkte integrieren werden oder integriert haben. Das Versprechen geht damit einher, dass die „KI“ Texte erstellt oder Entscheidungen treffen kann.
Die Bild-Zeitung will Personal einsparen, indem „KI“ dessen Aufgaben übernimmt.1 Dieses euphorische Bild bekommt Risse, wenn man den Blick von Pressemitteilungen hin zum praktischen Einsatz schweifen lässt. Ein Rechtsanwalt in den USA hatte ChatGPT eingesetzt, um Präzedenzfälle im Rahmen eines Gerichtsverfahrens zu recherchieren. ChatGPT erfand sechs fiktive Präzedenzfälle inkl. Aktenauszügen, die der Anwalt ungeprüft dem Gericht vorlegte. Dieses verurteilte ihn, seinen Kanzleipartner und ihre Kanzlei zu 5.000 US-Dollar Strafe.2
Die australische Regierung ließ von 2016 bis 2019 automatisiert Rückzahlungen von Sozialhilfeempfängern einfordern. 500.000 Menschen sollten Schulden zurückzahlen, die sie nie aufgenommen hatten, da das Programm fehlerhaft programmiert worden war. Das Programm wird auch für mehrere Selbstmorde verantwortlich gemacht. 430 Millionen Euro musste die australische Regierung an die Opfer zurückzahlen. In den Niederlanden bezichtigte ein Algorithmus Elternpaare mit doppelter Staatsbürgerschaft fälschlicherweise des Sozialhilfebetrugs. Ausschlaggebend für die Einstufung war die doppelte Staatsbürgerschaft.3
Die Fälle zeigen exemplarisch, dass Algorithmen – „KI“ ist auch ein Algorithmus – regelmäßig Fehler machen. Dieses ist quasi ein Naturgesetz. Auf der anderen Seite bieten Algorithmen auch Vorteile. Für Erfolg oder Misserfolg ist somit die Art und Weise der Nutzung von entscheidender Bedeutung.
Was muss beachtet werden, wenn „KI“-Anwendungen im Unternehmen eingeführt werden sollen?
„KI“ – intelligent oder strohdumm?4
Um einen Algorithmus zu entwickeln, muss die Wirklichkeit auf wenige Faktoren reduziert werden. Ein Algorithmus ist folglich ein Modell der Wirklichkeit. Faktoren, die nicht im Modell vorgesehen sind, kann der Algorithmus nicht verarbeiten. Das gilt auch für KI-Algorithmen. Wie gut das zugrunde liegende Modell die relevanten Faktoren abbildet, wird vom Hersteller regelmäßig nicht offengelegt.
Menschliche Entwickler legen bei Algorithmen mittels Verarbeitungsregeln fest, auf welche Eingabe welche Ausgabe zu erfolgen hat. Bei bestimmten Aufgaben, wie z. B. Mustererkennung oder Optimierung, gerät dieses Vorgehen wegen der immensen Eingabemöglichkeiten an seine Grenzen.
Die Lösung liegt darin, diese Aufgaben wie z. B. Mustererkennung oder Optimierung durch spezialisierte Algorithmen erledigen zu lassen. Es gibt nicht „den“ KI-Algorithmus. Für die unterschiedlichen Anwendungsfelder sind in den vergangenen 67 Jahren zahlreiche verschiedene Algorithmen mit unterschiedlichen Vor- und Nachteilen entwickelt worden.
Ein wesentliches Merkmal von Mustererkennungs- oder generativen „KI“-Algorithmen ist, dass sie ihre einprogrammierten Regeln durch Feedback-Schleifen in engen Grenzen verändern können. Der Entwickler legt dazu dem Algorithmus Trainingsdaten vor. Diese Trainingsdaten bestehen aus Eingaben und erwünschten Ausgaben. Der Algorithmus modifiziert seine internen Regeln so lange, bis sein Berechnungsergebnis meistens den erwünschten Ausgaben entspricht. Diese Phase wird „Lernen“ genannt. Allerdings bedeutet dieses „Lernen“ nicht das Gleiche, als wenn ein Mensch lernt. Der Algorithmus bestimmt Wahrscheinlichkeiten, ohne zu verstehen, was er tut. Aus dem Programmcode lässt sich nicht ohne Hilfsmittel ablesen, warum der Algorithmus aus einer gegebenen Eingabe eine Ausgabe erzeugt. Es entsteht beim Betrachter der unzutreffende Eindruck von „Intelligenz“ im menschlichen Sinn.
Der Algorithmus besitzt weder ein Verständnis von dem, was er antwortet, noch ein Bewusstsein. Er wendet lediglich die einprogrammierten – jedoch nicht offensichtlich nachvollziehbaren – Regeln an. Bei einer generativen „KI“ wie ChatGPT bedeutet dieses, dass der Algorithmus nachsieht, welche Wörter in seinem Trainingsmaterial auf die vorliegende Frage des Benutzers am häufigsten vorkamen. Diese Wörter gibt er aus. Im Grunde wird die Ausgabe „gewürfelt“.
Bei KI-Algorithmen kommen neben Programmierfehlern oder Konzeptionsfehlern die Trainingsdaten als weitere Fehlerquelle hinzu. Bei einem Algorithmus zur Bilderkennung wurden beispielsweise zum Training Fotos von Pferden verwendet. Alle Pferdefotos wiesen ein Copyrightzeichen auf. Der Algorithmus stützte seine Erkennung auf das Copyrightzeichen und nicht auf die abgebildete Gestalt.5 Um die Funktionsweise nachvollziehen zu können, sind zusätzliche Softwareprogramme und Untersuchungen erforderlich.
ChatGPT und vergleichbare Algorithmen werden mit Milliarden von Texten aus dem Internet trainiert. Öffentlich ist nicht bekannt, welche Texte genau verwendet wurden. Nutzt man beispielsweise Romane zum Training, bekommt man als Ausgabe nicht nur eine geschliffene Sprache, sondern der Algorithmus kennt auch Darth Vader, Magie und weiß, dass die Erde eine Scheibe ist. Selbst wissenschaftliche Beiträge eignen sich nur bedingt zum Training, da diese überholt oder auch unzutreffend sein können.
„KI“ ist wie jeder andere Algorithmus im menschlichen Sinne strohdumm.
Einsatz systematisch planen und testen
Möchte man sich einem Einsatz von „KI“ im Unternehmen nähern, empfiehlt es sich, zuerst die Fähigkeiten des Werkzeugs durch praktisches Ausprobieren zu erkunden. Dabei sollte beachtet werden, dass je nach Produkt die gleiche Eingabe zu unterschiedlichen Ausgaben führen kann. Ob dieses Verhalten erwünscht ist oder nicht, hängt vom Einsatzszenario ab. Unterschiedlich formulierte Kündigungsschreiben sind vielleicht tolerabel, während nicht uneinheitliche Kreditentscheidungen unerwünscht sind.
Sobald man eine erste Idee von der Leistungsfähigkeit hat, werden im nächsten Schritt potenzielle Einsatzgebiete identifiziert. Für jedes Einsatzgebiet sollten Testfälle erstellt werden, um zu überprüfen, ob das Werkzeug (die „KI“) aus den vorgegebenen Eingaben auch die erwarteten Ausgaben erzeugt. Ein Testfall besteht folglich aus einer definierten Eingabe an das Werkzeug, auch „Prompt“ genannt, und der erwarteten Ausgabe. Beispielsweise wird auf den Prompt6 „Vertrag kündigen“, d. h. die Eingabe, die folgende sinngemäße Ausgabe erwartet: „Sehr geehrte Damen und Herren, hiermit kündige ich meinen Vertrag mit der Nummer 123456 fristgerecht zum 31.12.2023. Bitte bestätigen Sie mir den Eingang dieser Kündigung und das Vertragsende schriftlich.“ Im Grunde geht man in dieser Phase vor wie bei einem normalen Softwaretest.
Diese Tests geben nicht nur Aufschluss darüber, ob das Werkzeug geeignet ist, sondern auch, bei welchen Eingaben es falsch reagiert. Aus den falschen Reaktionen lässt sich ableiten, ob etwa bestimmte Fälle nicht damit bearbeitet werden oder zusätzliche (manuelle) Prüfungen eingebaut werden sollten.
Jeder Algorithmus macht Fehler. Bei komplexen Algorithmen wie „KI“ fallen die Fehler häufig nicht direkt auf. Ein fachliches Nachvollziehen der Ausgabe und ein kritisches Hinterfragen der Richtigkeit sind angeraten.
In dem eingangs dargestellten Fall hätte der Anwalt die von ChatGPT generierten Fälle mit einem anderen Werkzeug suchen müssen, um zu prüfen, ob diese überhaupt existieren. Weiterhin hätte der Anwalt die Falldarstellung mit den Originaldarstellungen inhaltlich abgleichen müssen, um festzustellen, ob die Darstellung von ChatGPT den Originalakten entspricht.
Beim Einsatz des Werkzeugs sollte die Fehleranfälligkeit berücksichtigt werden, beispielsweise durch verpflichtende Prüfungen der Ausgabe durch Beschäftigte. Wenn sich z. B. eine Kita Bastelanleitungen per „KI“ erstellen lässt, so ist es mit Blick auf den Gesundheitsschutz geboten, die Anleitungen auch auf Gesundheitsgefahren hin zu überprüfen.
Eine Schulung der den Algorithmus nutzenden Beschäftigten über dessen Funktionsweise und auch die damit einhergehenden Fehler und Risiken hilft, unrealistische Erwartungen zu vermeiden, und kann auch zur Risikoreduktion beitragen.
Datenschutz einhalten
Sobald mit einem Algorithmus, „KI“ macht hier keine Ausnahme, personenbezogene Daten verarbeit werden, sind die bekannten datenschutzrechtlichen Anforderungen einzuhalten. Das Datenschutzrecht ist technikneutral, d. h. für die Anwendung des Rechts ist die verwendete Technik unerheblich. Anders formuliert, für „KI“ gibt es weder eine Ausnahme noch eine Sonderbehandlung.
Für die Klasse der maschinenlernenden Algorithmen ist neben dem Betrieb auch das Training zu betrachten.
Betrieb
Üblicherweise wird ein Algorithmus nicht als Selbstzweck eingesetzt, sondern ist Bestandteil eines Unternehmensablaufs (Prozess). Der Algorithmus „Produktempfehlung“ ist Teil des Prozesses „Einkauf per Webshop“ und wird folglich im Rahmen des Prozesses zu betrachten sein. Der datenschutzrechtliche Prüfgegenstand ist grundsätzlich der Prozess und nicht der einzelne Algorithmus.
Der Prüfungsablauf folgt den gesetzlichen Vorgaben:
- Liegt ein Zweck vor?
- Werden ausschließlich die personenbezogenen Daten verarbeitet, die objektiv für die Zweckerreichung erforderlich sind?
- Erlaubt eine Rechtsgrundlage die Verarbeitung? Für „normale“ personenbezogene Daten kommen für Unternehmen die Rechtsgrundlagen „Vertrag mit der betroffenen Person“ (lit. b)), diese Verarbeitung konkret anordnendes oder erlaubendes Gesetz (lit. c)), Interessenabwägung (lit. f)) oder Einwilligung (lit. a)) aus Art. 6 Abs. 1 Datenschutz-Grundverordnung (DS-GVO) in Betracht. Für die besonderen Kategorien personenbezogener Daten ist es entweder eine Einwilligung (lit. a)) oder die Erforderlichkeit im Rahmen des Beschäftigungsverhältnisses (lit. b)), wie in Art. 9 Abs. 1 DS-GVO festgelegt.
- Erfolgt die Löschung, sobald der Zweck entfallen ist, oder nach Ablauf der gesetzlichen oder satzungsmäßigen Aufbewahrungspflicht?
- Haben nur die Personen Zugriff auf die personenbezogenen Daten, die diese für ihre Aufgabenerfüllung benötigen?
- Muss das Sicherheitskonzept nach Art. 32 DS-GVO erweitert werden?
- Entstehen für die von der Verarbeitung betroffenen Personen hohe Risiken?
Jeder der Prüfschritte 1 bis 5 muss zu einem positiven Ergebnis führen, da andernfalls eine unrechtmäßige Datenverarbeitung vorliegt.
Wenn Prüfschritt 7 zu bejahen ist, muss eine förmliche Datenschutz-Folgenabschätzung durchgeführten werden. Dabei sind so lange zusätzliche Maßnahmen einzuführen, bis die Risiken auf mittel gesunken sind. Ist das nicht möglich, ist die Datenschutzaufsichtsbehörde zu konsultieren (Art. 36 DS-GVO). Diese kann dann die Nutzung genehmigen, Auflagen erlassen oder die Nutzung verbieten.
Soll der Algorithmus zu einer automatischen Entscheidung oder zum Profiling eingesetzt werden, sind die Einsatzverbote und Anforderungen an den Einsatz aus Art. 22 DS-GVO zu beachten. Eine Herausforderung ist es, die Entscheidungsgründe im Einzelfall nachvollziehbar zu protokollieren, um sie später überprüfen oder mitteilen zu können.
Mit Blick auf die Rechenschaftspflicht, d. h. die Pflicht, die Befolgung der DS-GVO jederzeit nachweisen können zu müssen, sollte die Prüfung vollständig dokumentiert werden.
Training
Betrieb und Training sind zwei unterschiedliche Sachverhalte. Auch wenn die Verarbeitung personenbezogener Daten im Betrieb zulässig ist, bedeutet das noch lange nicht, dass diese Daten auch zum Training genutzt werden dürfen. Sollen personenbezogene Daten zum Training verwendet werden, beispielsweise soll der Algorithmus aus den E-Mails von Kunden deren Anliegen erkennen können, gelten die Ausführungen aus Kapitel 4.1 entsprechend.
Für die Rechtsgrundlage kommen praktisch nur zwei Optionen in Frage:
- Einwilligung (Art. 6 Abs. 1 lit. a) DS-GVO) und
- Interessenabwägung (Art. 6 Abs. 1 lit. f) DS-GVO).
Eine Einwilligung muss informiert und freiwillig gegeben werden. Freiwillig bedeutet, dass grundsätzlich eine Kopplung etwa mit einem Vertrag tendenziell nicht zulässig ist. Im Beschäftigungsverhältnis sind Einwilligungen regelmäßig unwirksam, da das Direktionsrecht des Arbeitgebers einer Freiwilligkeit im Beschäftigungsverhältnis entgegensteht.
Generative KI-Algorithmen wie ChatGPT können – bei geschickter Befragung – ihre Trainingsdaten preisgeben. Solche Möglichkeiten sind – neben anderen Faktoren – bei der Interessenabwägung zu berücksichtigen. Gibt die KI die Trainingsdaten später preis, d. h. droht eine unkontrollierte Verbreitung personenbezogener Daten, scheitert die Interessenabwägung regelmäßig. Deshalb darf nicht davon ausgegangen werden, dass die Interessenabwägung immer das Training legitimiert.
Wenn ein Hersteller die Nutzung seiner Anwendung daran koppelt, dass er alle Daten zum Trainieren verwenden will, muss das anwendende Unternehmen auf jeden Fall eine Rechtsgrundlage zur Weitergabe personenbezogener Daten zum Trainieren an den Hersteller haben. Analog zum Selbsttrainieren kommt regelmäßig nur die Einwilligung oder Interessenabwägung in Betracht. Lässt sich keine tragende Rechtsgrundlage finden, ist eine Nutzung des Produkts mit personenbezogenen Daten verboten.
AI Act
Auf europäischer Ebene verhandeln im Moment EU-Kommission Parlament und Rat über die Verordnung „AI Act“. Dieser soll das Inverkehrbringen und Nutzen von „KI“-Algorithmen in der EU gesetzlich regeln. Einige Anwendungsfälle sollen verboten werden. Abgestuft nach den mit der Anwendung einhergehenden Risiken werden dem nutzenden Unternehmen und dem Hersteller unterschiedliche Pflichten auferlegt. Der AI Act steht neben der DS-GVO, d. h. beide Gesetze sind gleichzeitig zu beachten und einzuhalten. Bei größeren Investitionen empfiehlt es sich, zu prüfen, ob und welche Auswirkungen der AI Act – nach aktuellem Verfahrensstand – auf die geplante Anwendung hat.
Fazit
Lässt man den Hype um die 67 Jahre alte Technik „KI“ hinter sich, so können die neuen Produkte durchaus nützliche Funktionen bieten. Da es sich bei den Algorithmen um Black Boxes handelt, ist ihre Funktionsweise für den Anwender nicht ohne weiteres erkennbar und verständlich. Umso wichtiger ist es, den Einsatz planvoll anzugehen und durch Tests Nutzen und Schwächen zu identifizieren. Eine geeignete Prozessgestaltung hilft, die Schwächen zu reduzieren. Wie bei jeder anderen Form der Verarbeitung personenbezogener Daten bedarf es weiterhin einer datenschutzrechtlichen Prüfung. Diese sollte für den Betrieb und ein möglicherweise erfolgendes Training getrennt durchgeführt werden. Mit dem geplanten AI Act der EU kommen neue Anforderungen auf Hersteller und anwendende Unternehmen zu. Es empfiehlt sich, das laufende Gesetzgebungsverfahren zu beobachten.
Dr. Niels Lepperhoff, Xamit Bewertungsgesellschaft mbH
1 Heise Online (2023): Bild-Zeitung: KI soll das Layout machen, 20.06.2023. URL: https://www.heise.de/news/KI-Bild-Zeitung-setzt-auf-Kuenstliche-Intelligenz-9192608.html. Letzter Zugriff: 28.07.2023
2 Heise Online (2023): ChatGPT erfand Präzedenzfälle: US-Anwalt muss Strafe zahlen, 23.06.2023. URL: https://www.heise.de/news/Mit-fiktiven-Faellen-von-ChatGPT-argumentiert-US-Anwalt-muss-Strafe-zahlen-9196497.html. Letzter Zugriff: 28.07.2023
3 Heise Online (2023): Australien: Sozialhilfe-Algorithmus führte zu Suiziden und verschärfter Armut, 08.07.2023. URL: https://www.heise.de/news/Australien-Sozialhilfe-Algorithmus-fuehrte-zu-Suiziden-und-verschaerfte-Armut-9210590.html. Letzter Zugriff: 08.07.2023
4 Dieses Kapitel ist eine Zusammenfassung von Lepperhoff (2021): Faszination Künstliche Intelligenz. in: LOHN+GEHALT 05/2021, S. 74 bis 76.
5 Heise Online (2020): Wie sich KI-Entscheidungen überprüfen lassen. URL: https://heise.de/-4665982. Letzter Zugriff: 28.07.2023
6 Engl. für „Aufforderung“
7 Ausführliche Erläuterungen zur Risikobeurteilung finden sich hier: EDPB (2017): Guidelines on Data Protection Impact Assessment (DPIA). URL: https://ec.europa.eu/newsroom/article29/items/611236. Letzter Zugriff: 28.07.2023