Qualität und Verantwortung : Faszination Künstliche Intelligenz
Produktvorstellungen kommen immer seltener ohne die Betonung von „KI“ aus. Mit „KI“ sollen moderne Technik und Leistungsvermögen suggeriert werden. Eine erstaunliche Konnotation, steht „KI“ doch für „Künstliche Intelligenz“. Das gleichnamige Forschungsfeld entstand 1956. Wenn schon die „moderne“ Technik im Kern 65 Jahre alt ist, wie verhält es sich mit dem zugesprochenen Leistungsvermögen?
KI – ein Entwicklungsparadigma und keine Magie. Technisch ist „KI“ ein Stück Software, d. h. ein Algorithmus, in dem ein menschlicher Entwickler mittels Verarbeitungsregeln festgelegt hat, aus welcher Eingabe welche Ausgabe zu erfolgen hat. „Moment mal, in der Zeitung steht doch, KI lerne selbstständig“, mag man jetzt denken. Das stimmt in engen Grenzen.
Grundsätzlich legt ein Softwareentwickler die Regeln fest, die beschreiben, welche Eingabe zu welchen Ausgaben führt. Bei bestimmten Aufgaben, wie z. B. Mustererkennung oder Optimierung, gerät dieses Vorgehen wegen der immensen Eingabemöglichkeiten an seine Grenzen.
Die Lösung liegt darin, diese Aufgaben durch spezialisierte Algorithmen erledigen zu lassen. Aus der KI-Forschung sind verschiedene Algorithmen entstanden, die beispielsweise auf die Erkennung von Mustern oder Optimierung spezialisiert sind. Eine Software zur Umwandlung eines Lebenslaufs in einen Datenbankeintrag kombiniert einen Mustererkennungsalgorithmus (KI!) mit einem gewöhnlichen Algorithmus zum Füllen von Feldern in einer Datenbank.
Es gibt nicht den einen KI-Algorithmus. Für die unterschiedlichen Anwendungsfelder sind in den vergangenen 65 Jahren zahlreiche verschiedene Algorithmen mit unterschiedlichen Vor- und Nachteilen entwickelt worden.
Ein wesentliches Merkmal dieser „KI“-Algorithmen ist, dass sie ihre einprogrammierten Regeln durch Feedback-Schleifen in engen Grenzen verändern können. Der Entwickler legt dazu dem Algorithmus Trainingsdaten vor. Diese Trainingsdaten bestehen aus Eingaben und erwünschten Ausgaben. Der Algorithmus modifiziert seine internen Regeln so lange, bis sein Berechnungsergebnis meistens den erwünschten Ausgaben entspricht. Diese Phase wird „Lernen“ genannt. Aus dem Programmcode lässt sich nicht ohne Hilfsmittel ablesen, warum der Algorithmus aus einer gegebenen Eingabe eine Ausgabe erzeugt. Es entsteht beim Betrachter der unzutreffende Eindruck von „Intelligenz“ im menschlichen Sinn. Unzutreffend, da der Algorithmus weiterhin kein Verständnis oder Bewusstsein besitzt, sondern lediglich die einprogrammierten – jedoch nicht offensichtlich nachvollziehbaren – Regeln anwendet.
Übrigens sind die Ergebnisse von komplexen Programmen auch ohne „KI“-Algorithmen häufig wegen großer Mengen von Eingaben und Berechnungsregeln kaum oder gar nicht mehr nachvollziehbar.
Qualität vs. Glauben
Bei jedem Algorithmus stellt sich grundsätzlich die Frage nach seiner Qualität. Vereinfacht ausgedrückt, beschreibt die Qualität, wie häufig die Ausgabe der erwarteten Ausgabe entspricht. Bekanntlich macht jeder nicht-triviale Algorithmus aufgrund von Programmier- oder Konzeptionsfehlern Fehler, d. h. es gibt immer Eingaben, bei denen der Algorithmus nicht die erwartete Ausgabe berechnet. Fehlerfreie nicht-triviale Algorithmen sind prinzipiell unmöglich herzustellen.
Bei KI-Algorithmen kommen neben Programmier- oder Konzeptionsfehlern die Trainingsdaten als weitere Fehlerquelle hinzu. Bei einem Algorithmus zur Bilderkennung wurden beispielsweise zum Training Fotos von Pferden verwendet. Alle Pferdefotos wiesen ein Copyrightzeichen auf. Der Algorithmus stützte seine Erkennung auf das Copyrightzeichen und nicht auf die abgebildete Gestalt.[1]
[1] Heise Online (2020): Wie sich KI-Entscheidungen überprüfen lassen. URL: https://heise.de/-4665982
Um die Funktionsweise nachvollziehen zu können, sind zusätzliche Softwareprogramme und Untersuchungen erforderlich. In der Regel unterbleiben solche aufwändigen Untersuchungen. Die vierte Fehlerquelle ist die Repräsentativität der Trainingsdaten. Um eine möglichst gute Qualität im Produktivbetrieb zu erreichen, müssten die Trainingsdaten die Merkmale der im Produktivbetrieb anfallenden Eingangsdaten aufweisen. Da Trainingsdaten teuer in der Erstellung sind, besteht ein großer Anreiz, diese für ganz unterschiedliche Anwendungsszenarien zu verwenden. Die Repräsentativität ist nicht mehr gegeben. Würden im Produktionsbetrieb nur Pferdebilder ein Copyrightzeichen aufweisen, wäre die Nutzung des Copyrightzeichens zur Erkennung ausreichend. Anders läge der Fall, wenn Produktivbilder von Pferden kein Copyrightzeichen tragen.
Um einen Algorithmus zu entwickeln, muss die Wirklichkeit auf wenige Faktoren reduziert werden. Ein Algorithmus ist folglich ein Modell der Wirklichkeit. Faktoren, die nicht im Modell vorgesehen sind, kann der Algorithmus nicht verarbeiten. Das gilt auch für KI-Algorithmen. Wie gut das zugrunde liegende Modell die relevanten Faktoren abbildet, wird regelmäßig nicht vom Hersteller offengelegt. Weil KI-Algorithmen unstrukturierte Daten wie z. B. Fotos verarbeiten, kann ein Anwender die verwendeten Daten nicht erkennen. Bei klassischen Programmen geben Masken oder Schnittstellen Auskunft über die verarbeiteten Daten.
Käufer und Anwender von KI-Algorithmen sind regelmäßig nicht in der Lage, die Qualität selbst zu prüfen.
Angesichts der typisch hohen Anzahl möglicher Kombinationen von Eingangsdaten reichen 100 oder 1.000 Tests nicht aus. Anwender bräuchten viel mehr direkten Zugriff auf den Algorithmus – ohne die um diesen herum arbeitenden anderen Algorithmen –, zusätzliche Werkzeuge und auch Zugriff auf die verwendeten Trainingsdaten.
Erschwerend kommt hinzu, dass Algorithmen immer eine Ausgabe als „Antwort“ erzeugen. Im Gegensatz zu einem Menschen sagen sie nicht, dass sie keine Ahnung haben oder nicht weiterwissen. Wenn die Ausgabe nicht offensichtlich als falsch erkennbar ist, entsteht schnell der Eindruck von der Überlegenheit oder Weisheit des Algorithmus.
Es bleibt der Glaube an die überlegene Qualität.
Training mit Echtdaten von Auftraggebern
Für die Entwicklung von KI-Algorithmen werden Trainingsdaten benötigt. Um ihren Bestand an Trainingsdaten kostengünstig zu verbreitern, scheinen sich Hersteller der Daten ihrer Kunden bemächtigen zu wollen. Das legen entsprechende Klauseln in Nutzungsverträgen nahe.
Gerade im Bereich HR sind die verarbeiteten Daten regelmäßig personenbezogen.
Die Nutzung von personenbezogenen Daten des Auftraggebers durch den Auftragnehmer für ein Training seiner Algorithmen stellt datenschutzrechtlich eine Verarbeitung für eigene Zwecke des Auftragnehmers dar. Der Auftraggeber benötigt eine Rechtsgrundlage, um personenbezogene Daten an den Auftragnehmer zu übermitteln.
Der Auftragnehmer braucht eine weitere Rechtsgrundlage, die ihn ermächtigt, die Daten zu Trainingszwecken zu verarbeiten. Eine Auftragsverarbeitung kommt nicht in Betracht, da der Auftragnehmer eigene Zwecke verfolgt. Eine ausführliche Erläuterung findet sich in LOHN+GEHALT Nr. 3/2021.
Verantwortung des Anwenders
Datenschutzrechtlich verantwortlich ist das Unternehmen, das KI-Algorithmen einsetzt. Es muss die bekannten Pflichten erfüllen und insbesondere auch prüfen, ob eine automatische Entscheidung stattfindet. Automatische Entscheidungen werden durch Art. 22 Datenschutz-Grundverordnung (DS-GVO) reguliert.
Ohne indes auf die Einzelheiten eingehen zu wollen, die einen eigenen Beitrag verdienen, sei darauf hingewiesen, dass eine Nachvollziehbarkeit der automatischen Entscheidung notwendig ist. Konkret muss der Anwender nachvollziehen können, aus welchen Gründen der Algorithmus aus der Eingabe die Entscheidung (= Ausgabe) getroffen hat. Unternehmen sind deshalb gut beraten, bei der Softwareauswahl Wert auf die Nachvollziehbarkeit zu legen.
Aufgrund der nicht prüfbaren Qualität empfiehlt es sich, kritisch zu analysieren, welche Konsequenzen für betroffene Menschen, aber auch für Geschäftsprozesse falsche Ausgaben des Algorithmus haben können. Je mehr Schritte automatisch ablaufen, desto gravierender können die Folgen ausfallen: Ein KI-Algorithmus klassifiziert beispielsweise bei der Analyse von Kontoauszügen den Wocheneinkauf als Ausgabe für Glücksspiele. Diese Klassifikation wird automatisch zur Kreditentscheidung herangezogen, sodass der Betroffene keinen Kredit wegen seiner „Glücksspielaktivitäten“ erhält. Ein nicht erteilter Kredit stellt sowohl einen Nachteil für die betroffene Person wie auch für das Unternehmen in Form entgangener Umsätze dar.
Fazit
Ein nüchterner Blick bei der Softwarebeschaffung hilft, sowohl den datenschutzrechtlichen Anforderungen zu genügen als auch einen größtmöglichen Nutzen aus dem Einsatz von Softwareprodukten mit KI-Algorithmen zu ziehen. Ausgangspunkt der Einsatzplanung sollte sein, den KI-Algorithmus als Produkt ohne feststellbare Qualität und nachvollziehbares Verhalten zu behandeln. Aus der verwendeten Klasse von KI-Algorithmen lassen sich deren grundlegende Vorteile und auch Grenzen ableiten. Damit lässt sich die Bandbreite des möglichen (fehlerhaften) Verhaltens eingrenzen. Maßnahmen zur Erkennung und Korrektur von Fehlverhalten helfen, die Auswirkungen der ungewissen Qualität zu minimieren. Bei der datenschutzrechtlichen Bewertung zahlen die vorstehenden Überlegungen grundsätzlich ein.
Dr. Niels Lepperhoff, Xamit Bewertungsgesellschaft mbH