Banner Online Kompaktkurse für fundiertes Wissen zu neuesten Gesesetzesänderungen und Abrechnungskriterien
Abo

Large Language Models (LLM) : Künstliche Intelligenz: Schlau? Ein Papagei? Oder ein Dummkopf?

LLM werden als KI-Lösung vermarktet – doch sie sind stochastische Textgeneratoren ohne echtes Wissen. Der Beitrag zeigt, was das für Unternehmen bedeutet.

Lesezeit 6 Min.

Inspiriert durch die omnipräsente Öffentlichkeitsarbeit von Anbietern und angeregt durch das Wort „Intelligenz“ im Begriff „KI“ erscheint „KI“ als Lösung des Fachkräftemangels für Führungskräfte und Politiker naheliegend. Wie weit die Phantasie reicht, erlebte der Autor, als eine HR-Führungskraft eine „KI“ anmieten wollte, die Bewerber anrufen, diese interviewen und dann die Einstellungsentscheidung treffen sollte. Dabei ging die Führungskraft davon aus, dass die „KI“ schon wisse, wie das geht und was das Unternehmen braucht. Einige 10.000 Euro später kehrte Ernüchterung ein: Der Algorithmus war ja gar nicht „intelligent“.

Was im Moment als „KI“ vermarktet wird, ist regelmäßig ein Large Language Model (LLM). In früheren Hypes wurden andere Algorithmenklassen als „KI“ vermarktet. Deshalb ist es wichtig, die eingesetzte Algorithmenklasse und nicht den Begriff „KI“ in den Blick zu nehmen.

Funktionsweise von Large Language Models (LLM)

Ganz vereinfacht ausgedrückt ist ein LLM eine mathematische Gleichung mit Millionen oder Milliarden Parametern, die die Wahrscheinlichkeit berechnet, dass ein Wort A auf das Wort B folgt. Da kein Entwickler Zeit und Lust hat, von Hand Millionen oder Milliarden Parameter mit Werten zu füttern, wird maschinelles Lernen eingesetzt. Dabei werden die Parameter so eingestellt, dass das LLM mit hinreichend hoher Wahrscheinlichkeit das richtige Wort A nennt, das auf das im Trainingsdatensatz vorkommende Wort B folgt. Mithilfe des Trainingsdatensatzes werden die Millionen oder Milliarden Parameter eingestellt. Ein LLM erkennt im Grunde Muster und reproduziert diese.

Eine zentrale Annahme ist: dadurch, dass alle Texte der Menschheit als Trainingsmaterial genommen werden, stecke auch das Wissen der Menschheit im LLM. LLM werden mit dem Versprechen vermarktet, dass sie logische Schlüsse aus dem in ihnen gespeicherten „Wissen“ ziehen könnten.

Forscher des Forschungszentrums Jülich, der University of Bristol und der Open-Sci

Collective zeigten, dass moderne LLM einfache logische Aufgaben nicht lösen können.[1] Während Menschen die Frage „Alice has N brothers and she also has M sisters. How many sisters does Alice’s brother have?“ richtig beantworten können, geben die untersuchten LLM falsche Antworten. Sie können diese falschen Antworten auch – mit falschen Argumenten – begründen.

Eine Untersuchung des Massachusetts Institute of Technology (MIT) und der Boston University zeigt, dass LLM zwar antrainierte Sachverhalte wiedergeben können, aber selten richtige Lösungen zu kontrafaktischen Aufgabenstellungen finden.[2] Die Modelle sollten beispielsweise Additionen in einem anderen Zahlensystem durchführen. Solche Additionen sind mit hoher Wahrscheinlichkeit nicht in den Trainingsdaten enthalten gewesen, d. h. das LLM müsste logisch schlussfolgern. Daran scheiterten die Modelle regelmäßig.

Bemerkenswert ist, dass im Moment nicht bekannt ist, auf welche Art und Weise LLM ihre Ausgaben erzeugen.

Wie erzeugen LLM ihre Ausgaben?

Wie jeder Algorithmus erzeugen LLM aus der Eingabe (Trainingsdaten und Fragestellung („Prompt“)) immer auch eine Ausgabe. Bei deterministischen Algorithmen lässt sich die Berechnung der Ausgabe nachvollziehen, indem dem Algorithmus beim Rechnen „über die Schulter geschaut“ wird. Dieses funktioniert bauartbedingt bei LLM nicht.

Die Erforschung, wie LLM ihre Ausgaben berechnen, steht noch am Anfang. Es bedarf zusätzlicher Programme, die die in einem LLM ablaufenden Berechnungen extrahieren, in einen Kontext setzen und letztlich visualisieren können. Erste Werkzeuge zeigen, dass die naive, aber weitverbreitete Annahme, LLM „verstehen“ den Sinn der Wörter, falsch ist.

Ein LLM wird technisch durch geschichtete neuronale Netze umgesetzt. Beim Design von neuronalen Netzen stand – wie der Name nahelegt – das menschliche Gehirn Pate. Vereinfacht ausgedrückt ist ein Neuron eine mathematische Funktion. Neuronen – oder genauer Funktionen –, die zusammen aktiv sind, wenn ein bestimmter Input verarbeitet wird, werden auch Areal genannt. Die Betrachtungsebene „Areal“ erlaubt, wie bei menschlichen Gehirnen, eine vereinfachte Übersicht zu erhalten.

Warum halten LLM 9.11 (englische Zahlennotation) für größer als 9.8 (englische Zahlennotation)? Forscher des Projekts Transluce fanden heraus, dass die Frage von Arealen beantwortet wurden, die mit Bibelversen und dem 11. September befasst waren.[3] Da der Bibelvers 9.11 nach dem Bibelvers 9.8 kommt, ist nachvollziehbar, warum 9.11 größer als 9.8 ist. Nachdem beide Areale abgeschaltet wurden, erzeugte das LLM die richtige Antwort. Ein Mensch hätte erkannt, dass „9.11“ im Kontext einer Rechenaufgabe eine Zahl bedeutet und im Kontext eines Bibelverses eine Absatznummerierung.

Das Abschalten von Arealen, die eine falsche Antwort erzeugen, eignet sich nicht, um falsche Antworten zu verhindern, da letztlich jedes Areal sowohl an richtigen wie auch an falschen Antworten beteiligt ist.

Die Annahme, dass durch Training mit möglichst vielen Texten „Wissen“ in das LLM gelangt, ist nicht haltbar. LLM enthalten kein Wissen, sondern aus Texten extrahierte Muster, die zufällig wie „Wissen“ aussehen können.

LLM als Lösung des Fachkräftemangels?

Menschliche Arbeitskraft durch Maschinen zu ersetzen, ist das Mittel, um Kosten zu senken und Arbeitskräfte einzusparen. Während Maschinen körperliche Arbeit ersetzen, ersetzen Computerprogramme bisher Routinetätigkeiten, die durch eine gleichförmige Bearbeitung strukturierter Aufgaben gekennzeichnet sind. Mit LLM wird die Hoffnung verbunden, auch geistig anspruchsvollere Tätigkeiten wie das Ausdenken von Slogans, das Schreiben von Briefen, das Programmieren oder Erstellen von Zeitungsartikeln automatisieren zu können.

Auch wenn, wie eingangs erläutert, Zweifel bestehen, dass LLM für kreative oder geistig anspruchsvolle Tätigkeiten das richtige Werkzeug sind, werden solche Produkte im Alltag eingesetzt.

Verschiedene empirische Studien haben sich mit den Auswirkungen der Nutzung auf die geistigen Fähigkeiten der Anwender beschäftigt. [4] Die Ergebnisse legen nahe, dass mit zunehmender Nutzungszeit geistige Fähigkeiten abnehmen. Welche Fähigkeiten abnehmen, hängt davon ab, welche kognitive Tätigkeit durch ein Computerprogramm unterstützt bzw. ersetzt wird. Navigationsgeräte reduzieren die Orientierungsfähigkeit. Werden LLM als Ideengeber eingesetzt, sinkt die Kreativität. Die Tätigkeiten der Anwender verlagern sich von der Lösung der Aufgabenstellung hin zur Kontrolle der maschinell erzeugten Ergebnisse.

Untersuchungen zeigten, dass Nutzer mit einem hohen Vertrauen in die Ergebnisse ihrer KI-Werkzeuge diese Ergebnisse weniger genau kontrollierten. Neben dem Vertrauen in das Werkzeug spielt auch das aufgabenspezifische Selbstvertrauen eine Rolle. Nutzer mit einem hohen aufgabenspezifischen Selbstvertrauen kontrollierten die Ergebnisse genauer.

Unternehmen, die LLM und andere „KI“-Werkzeuge als Ersatz für Beschäftigte mit aufgabenspezifischem Wissen und Selbstvertrauen einsetzen wollen, laufen Gefahr, falsche, ineffiziente oder ineffektive Ergebnisse zu verwenden. Zusätzlich verbessern die Beschäftigten nicht mehr ihre Fähigkeiten durch die Arbeiten, sondern verlernen diese auch noch.

Stochastische Natur – unterschätzter Nachteil

Eine gewünschte Eigenschaft von Geschäftsprozessen ist ihre Vorhersagbarkeit. Sie sollen immer die gleichen Ergebnisse erzeugen. In der Mathematik und Informatik nennt man Funktionen oder Programme, die auf die Eingabe A immer B ausgeben, deterministisch. Stochastische Funktionen und Programme erzeugen aus der Eingabe A zufällig die Ausgaben B, C oder D. LLM sind stochastische Programme, die im Grunde Würfel sind, die ihre Ausgabe würfeln.

Baut man ein LLM in einen deterministischen Geschäftsprozess ein, wird der Geschäftsprozess ebenfalls stochastisch, d. h. seine Ergebnisse sind zufällig und nicht mehr vorhersehbar. Bei einem stochastischen Bewerberprozess wird nicht ein geeigneter Kandidat, sondern ein zufällig ausgewählter Kandidat eingestellt. Ob ein solches Ergebnis akzeptabel – und rechtlich zulässig – ist, sollte vor Einführung eines LLM geprüft werden.

Dr. Niels Lepperhoff, Xamit Bewertungsgesellschaft mbH

[1] Marianna Nezhurina, Lucia Cipolina-Kun, Mehdi Cherti, Jenia Jitsev (2025): Alice in Wonderland: Simple Tasks Showing Complete Reasoning Breakdown in State-Of-the-Art Large Language Models, URL: arxiv.org/abs/2406.02061v5

[2] Zhaofeng Wu, Linlu Qiu, Alexis Ross, Ekin Akyürek, Boyuan Chen, Bailin Wang, Najoung Kim, Jacob Andreas, Yoon Kim (2024): Reasoning or Reciting? Exploring the Capabilities and Limitations of Language Models Through Counterfactual Tasks, URL: arxiv.org/abs/2307.02477v3

[3] Kevin Meng, Vincent Huang, Neil Chowdhury, Dami Choi, Jacob Steinhardt, Sarah Schwettmann (2024): Monitor: An AI-Driven Observability Interface. URL: https://transluce.org/observability-interface

[4] Arne Grävemeyer (2025): Schlaue KI – schrumpfendes Hirn, c’t 10/2025, S. 124-127

Diesen Beitrag teilen: