LdN 455: Wortwahl beim Thema KI/LLMs: „halluzinieren“ und ähnliche Vermenschlichungen

Hallo zusammen!

KI bzw. LLMs sind ja nun schon länger in aller Munde, und mich frustriert es schon länger etwas, wie sehr m. E. irreführende Formulierungen sich als Standard etabliert haben, z. B. das berühmte „halluzinieren“ für sachlich falschen Output.

Letztendlich transportieren diese vermenschlichenden Ausdrücke vor allem ein positives Framing der Tech-Unternehmen, nämlich dass deren Modelle im Prinzip den Menschen schon ebenbürtig seien oder kurz davor stünden.

Diesen Hype an sich hat Cory Doctorow 2023 sehr schön auf den Punkt gebracht:

This “AI debate” is pretty stupid, proceeding as it does from the foregone conclusion that adding compute power and data to the next-word-predictor program will eventually create a conscious being, which will then inevitably become a superbeing. This is a proposition akin to the idea that if we keep breeding faster and faster horses, we’ll get a locomotive

( Pluralistic: The real AI fight (27 Nov 2023) – Pluralistic: Daily links from Cory Doctorow )

Ich finde es sehr wichtig, auf die Wortwahl zu achten und LLMs/KI nicht zu vermenschlichen, weil das letztendlich nur Marketingunterstützung für KI-Unternehmen ist und sachlich-neutrale Debatten bei dem Thema erschwert.

Denn LLMs „wissen“ nichts, sie haben nur Daten gespeichert, die sie ausgeben. LLMs „verstehen“ auch nichts, sie geben nur automatischen Output auf einen bestimmten Input hin. Und sie „halluzinieren“ oder „lügen“ auch nicht, weil sie überhaupt keine Vorstellung oder Verständnis von Realität haben (weil sie überhaupt keine Vorstellungen haben!).

Ja, ChatGPT z. B. gibt bei vielen Themen Texte aus, die richtige Dinge enthalten. Aber das ist im Endeffekt Zufall: ChatGPT „weiß“ nicht, ob etwas richtig oder falsch ist, es ist einfach nur eine aufgebohrte (wenn auch zweifellos sehr beeindruckende) Autovervollständigung.

Also, meine Anregung sowohl für das Lage-Team als auch alle anderen Leute hier:

Schaut euch mal eure Wortwahl im Bereich KI/LLMs an und überlegt, ob ihr das darin enthaltene Framing wirklich gut findet und weiter verbreiten wollt.

4 „Gefällt mir“

Ich bin inhaltlich bei dir. Aber halluzinieren ist als Begriff in Gespräch mit Menschen, die die Technik nicht so gut kennen, schon recht griffig und beschreibt zumindest das Ergebnis (das eine falsche Tatsache dargestellt wird) auch einigermaßen treffend. Was würdest du da als Alternative vorschlagen?

5 „Gefällt mir“

Diskussionen wie diese erinnern mich an von wichtigeren Themen ablenkende Auseinandersetzungen, ob man eine vegane Wurst vegane Wurst nennen darf, weil kein Fleisch drin ist. Kann ich bis heute nicht verstehen: Sieht aus wie Wurst, schmeckt so ähnlich wie Wurst und man nennt es ganz ausdrücklich vegane Wurst.

Sorry, aber ich muss es mal ganz deutlich sagen: Erwachsene sind mündig und keine Kindergartenkinder, die man ständig beschützen muss. Mitdenken bleibt erlaubt!

So auch bei Begriffen wie „halluzinieren“ oder „irren“ oder „wissen“ im Zusammenhang wie KI. Zunächst einmal hilft das, mittels bekannten Begriffen das auszudrücken, was man neues erlebt (ich hätte den Begriff „Fabulieren“ übrigens vorgezogen). Interessanterweise kommen diese Begriffe übrigens überwiegend aus der KI-Forschung, also von Wissenschaftlern, selbst. Und natürlich weiß jeder, dass kein Mensch, sondern eine Maschine die Antwort gegeben hat.

Ja, solche Begriffe helfen nicht dabei, zu verstehen, dass KI eigentlich nur ein „stochastischer Papagei“ ist (was für eine ver-Tier-lichung!). Aber das Bild des stochastischen Papagei hilft eben auch nicht weiter, weil die KI-Antworten dann doch sehr viel häufiger überraschend hilfreich sind, als man das von einem stochastischen Papagei für möglich halten kann. In einigen Bereichen mehr, in anderen weniger.

Wichtig ist doch, dass alle Anwender wissen: Auf die Antworten von KI-Chatbots kann ich mich einfach nicht verlassen und muss diese kritisch hinterfragen (steht überwiegend in jedem KI-Chatbot, den ich bislang genutzt habe, als ausdrücklicher Disclaimer - nicht ganz so auffällig wie die bewusst abschreckenden Bildchen auf Zigarettenschachteln).

Übrigens gilt, dass man sich nicht auf Antwortren verlassen kann, auch für die Antworten vom Nachbarn ebenso wie die Antworten im Faktencheck der Tagesschau.

Wollen wir jetzt unter jeden Artikel schreiben „Achtung, Journalisten machen auch mal Fehler oder sind manchmal zu faul zu recherchieren“?

Man hätte auch die Kraft, die ein Auto auf die Strasse bringt, niemals mit Pferdestärken messen würden. Trotzdem glaubt kein Boomer (der immer noch in PS denkt), dass im Auto eigentlich eine Herde Pferde steckt.

„Achtet auf Eure Sprache!“ ist oft wichtig. Aber oft nimmt dieser Appell einfach überhand.

16 „Gefällt mir“

“Halluzinieren” ist hierbei ein eigenständiger Fachbegriff im Rahmen von KI und nicht mit dem halluzinieren bei Menschen gleichzusetzen. Im Prinzip ein Teekesselchen. Ähnlich aber nicht das selbe.

10 „Gefällt mir“

Das ist halt ein Fachbegriff, den man nutzt. Ob man den nun toll findet oder nicht.

Und wenn du ein LLM als eine Art Auto-Vervollständigung siehst, dann hast du die Technologie nicht verstanden. Sorry, aber AI ist gerade kein abfragen einer Wissens Datenbank, sondern ein reasoning. Das System validiert also Antworten gegen sich selbst. Ja, es kann falsch abbiegen, wie Menschen auch..

spätestens wenn du robotic AI zum ersten Mal live erlebst, siehst du, dass das viel mehr ist. Ein Roboter ist trainiert, aber er kann auch mit Situationen umgehen, die „neu“ sind, und Lösungen finden.. und sogar daraus lernen und sich in Zukunft verbessern… spooky

Da die meisten jedoch AI mit großen, generische Sprachmodellen gleichsetzen, kann das schnell entstehen..

1 „Gefällt mir“

Es ist ein weit verbreiteter Irrglaube, dass LLMs aus gespeicherten Daten Antworten „basteln“. Das Lernen besteht darin, dass Verbindungen zwischen den „Neuronen“ verstärkt oder geschwächt werden, wie beim menschlichen Gehirn. Das „Wissen“ steckt in der Gesamtheit der Verknüpfungen. Es gibt keine Datenbank.

Geoffrey Hinton, Nobelpreisträger für seine Forschung zu maschinellem Lernen, erklärt das sehr gut in verschiedenen YouTube Videos.

Er erklärt auch dass seiner Meinung nach LLMs ein Konzept genauso „verstehen“ wie ein menschliches Gehirn, wenn dieses Konzept gelernt wurde (also die Verknüpfungen gebildet).

Hinton ist übrigens ein starker Kritiker der aktuellen LLM Entwicklung. Er hält sie aus mehreren Gründen für sehr gefährlich.

6 „Gefällt mir“

Ich finde „Fabulieren“ besser als „Halluzinieren“. Fabulieren bedeutet etwas erfinden das es nicht gibt. Das passt für mich besser zum Verhalten der LLMs als Halluzinieren, was eine Sinnestäuschung voraussetzt.

Die Modelle täuschen sich ja nicht, sondern sie erfinden eine plausible Antwort wie ein phantasievolles Kleinkind, weil sie darauf trainiert wurden Antworten zu geben anstatt zu sagen „weiß ich nicht“.

5 „Gefällt mir“

Das was du da beschreibst, ist aber nicht das, was momentan ChatGPT und Konsorten betreiben, oder?

Natürlich, was denn sonst?

Momentan greifen sie sehr wohl auf das gespeicherte Wissen zurück und schauen, was am besten zur Frage passt. Neues Wissen wird nur in der Form geschaffen, dass keine Antwort passt - das nennen wir dann „Halluzinieren“, weil die dann am besten passende Antwort immer noch am Ziel vorbei ist.

1 „Gefällt mir“

Doch, genauso funktionieren ChatGPT und andere LLMs. LLMs sind im Endeffekt riesige künstliche neuronale Netze. Gerade in der Anfangszeit des Hypes von LLMs wurde bei neuen Modellen immer eine Zahl wie “175B“ genannt. Die Zahl beschreibt (vereinfacht gesagt) die Größe dieses neuronalen Netzes. 175B steht für 175 billion (also 175 Milliarden) Parameter. Die Parameter beschreiben, wie “stark“ bestimmte Neuronen miteinander verbunden sind. Das Bestimmen dieser Werte (für alle Milliarden Parameter) ist das, was man unter Training versteht (wofür es eine riesige Auswahl an möglichen Traningsmethoden und -paradigmen gibt.) Wenn man nach dem Training mit ChatGPT “spricht“, dann wird quasi die Eingabe durch dieses riesige neuronale Netz geschickt. Die gelernten Parameter bestimmen dann, wie die Eingabe mathematisch auf dem Weg durchs Netz in die entsprechende Ausgabe transformiert wird.

6 „Gefällt mir“

Übrigens: Falls du eine intuitive Erklärung dafür bekommen möchtest, wie diese Verbindungen “Wissen“ erzeugen, ist hier ein fantastisches Video https://www.youtube.com/watch?v=wjZofJX0v4M. Vor allem der Teil ab Minute 12:30 bzw. vor allem ab Minute 15:00 haben mir dabei geholfen, ein intuitiveres Verständnis für LLMs zu bekommen.

4 „Gefällt mir“

Jaein. Das ist nicht so leicht. Es gibt verschiedene Arten des maschinellen Lernens. (So nennt man das Paradigma, unter dem LLMs - und eigentlich alles, was wir aktuell KI nennen - fällt.) Eine Art ist das Reinforcement Learning. Das wurde schon sehr erfolgreich beim Schach und Go verwendet. Die Idee ist hierbei nicht, dass man versucht, vorhandene Daten möglichst gut abzubilden und Trends in den Daten zu erkennen. (So etwas nennt man Supervised Learning.) Hier könnte man tatsächlich argumentieren, dass nichts Neues erschaffen wird und auf “gespeichertes“ Wissen zugegriffen wird. (Wobei “gespeichert” auch hier eigentlich falsch ist, da die neuronalen Netze sozusagen eine Repräsentation des gespeicherten Wissens, also der Trainingsdaten, sind. Dieses Wissen/die Traningsdaten werden nach dem Training aber nicht mehr gebraucht).

Beim Reinforcement Learning geht es darum, einen KI-Agenten vollkommen selbstständig lernen zu lassen. Der Agent entdeckt selbst, was gut und was nicht - vollkommen ohne menschlichen Leitung. So konnte das KI-Programm AlphaZero, das komplett mittels Reinforcement Learning trainiert wurde und nur die Regeln von Go kannte, den besten menschlichen Go-Spieler besiegen. Dabei hat das Programm vollkommen neue Strategien entwickelt und angewendet. In dem Sinne kann “KI“, vor allem die, die mittels Reinforcement Learning trainiert wurde, sehr wohl neues Wissen generieren.

ChatGPT bzw. alle LLMs werden unter anderem auch mittels Reinforcement Learning trainiert. Also einfach nur zu sagen, LLMs fassen das zusammen, womit sie trainiert wurden, ist meiner Meinung nach nicht zutreffend.

4 „Gefällt mir“

Doch, genau das machen die. Friezer hat das gut erklärt.

Ich habe leider keine Zeit, das vorgeschlagene Youtube-Video anzuschauen (habe mir es für „später ansehen“ gespeichert), daher kurz: Kannst Du, @Carsten_G oder @Friezer, ohne größeren Aufwand erklären, warum dann LLM-basierte KI-Chatbots wie ChatGPT oder Perplexity gelerntes Wissen mit Verweis auf die Quellen wiedergeben? Dabei fällt schon auf, dass nicht selten in den Quellen gar nicht das drin steht, was sie an Wissen weitergegeben haben.

Und noch eine Frage, nur aus Interesse: Findet Halluzinieren (auch ich finde den Begriff „Fabulieren“ viel treffender), also das pure Erfinden von „Wiesen“, vor allem dann statt, wenn das LLM über das angefragte Wissen nicht verfügt? Weil es schlicht nicht in der Lage ist, zu sagen: „Tut mir leider, aber das weiß ich auch nicht“. Warum ist es offenbar nicht möglich, zu programmieren: „Wenn Du nicht über das benötigte Wissen verfügst, sage ‚Ich weiß nicht‘“?

Das kann zwei Ursachen haben:

  1. Die Quellenangabe ist Teil der generierten Ausgabe, weil das Modell gelernt hat, auf bestimmte Arten von Anfragen Quellenangaben mitzuliefern → Das ist der Fall, bei dem häufiger fiktive Quellen auftreten. Das ist dann ein ganz normaler Fehler bzw Halluzination.
  2. Der Antwortprozess besteht aus mehreren Schritten und beinhaltet zum Beispiel eine Google-Suche, aus der dann die ersten x Ergebnisse dem Chatbot als „Quelle“ zur Verfügung stehen.

Der Begriff Wissen ist in diesem Kontext schwierig, aber grundsätzlich ja. Das Modell ist darauf trainiert Anfragen zu beantworten, also Text zu erstellen, der eine sinnvolle Antwort darstellt. Wenn in den ursprünglichen Trainingsdaten viel Informationen zu einem Thema existieren, fällt es dem Modell vergleichsweise leicht, diese Informationen korrekt wiederzugeben und im Kontext der Frage richtig zu antworten. Je weniger Informationen das Modell aber zu einem Thema hatte und je komplexer die Anfrage ist, desto leichter können sich Fehler einschleichen.

Das Problem ist, dass das Wissen des Modells nicht direkt abfragbar vorliegt. Es ist ja keine Datenbank an Wissen, die abgefragt werden kann und auf dessen Basis man das Level an „Unwissen“ einfach feststellen könnte. Das Ergebnis des Trainings ist ein riesiges neuronales Netz, dessen Gewichte (die Stärke der Verbindungen zwischen Punkten im Netz) das gelernte Wissen abstrakt darstellen. Es ist aber nicht möglich aus den Gewichten einfach wieder zurück auf die gelernten Informationen zu schließen.

Das Modell entscheidet sich auch nicht aktiv dafür zu halluzinieren. Die Halluzination ist auf Basis der Möglichkeiten des Modells die beste Ausgabe. Das selbst zu evaluieren stelle ich mir schwierig vor, denn um die Ausgabe als falsch zu erkennen, müsste das Modell trainiertes Wissen über das Thema haben. Hätte das Modell dieses Wissen, würde der Fehler ja aber gar nicht erst so gravierend auftauchen.

6 „Gefällt mir“

Da würde ich jetzt halt einwerfen: Das beschreibt das vielleicht griffig, aber eben griffig falsch, weil völlig falsche Vorstellungen davon geschaffen werden, wie LLMs funktionieren:

„halluzinieren“ ist im Allgemeinverständnis eine Abweichung von der normalen Wahrnehmung, bei der diese eben von der Realität losgelöst ist. Aber bei LLMs ist das keine Abweichung, sondern das ist der Normalzustand. Mit „halluzinieren“ wird suggeriert, dass das irgendwas schief gegangen ist, aber das ist nicht der Fall: Bei einer „Halluzination“ (also wenn ein LLM etwas ausgibt, was falsch ist) funktioniert das LLM ganz normal wie immer.

Wenn du unbedingt den Begriff „halluzinieren“ im Sinne von „hat keinen Bezug zur Realität“ verwenden möchtest, müsste man eigentlich sagen: LLMs halluzinieren immer. Manchmal deckt sich diese Halluzination zufällig mit der Realität, aber manchmal halt auch nicht.

Ich persönlich finde es zwar immer noch suboptimal, weil mit dem ganzen „Halluzination“-Frame eben der Eindruck erweckt wird, ein LLM hätte so etwas wie eine Wahrnehmung, hätte eine Vorstellung von Realität oder Wahrheit – aber wenn du das Wort als anschaulichen Einstieg empfindest, ist das vielleicht eine gute Überleitung zu einer etwas technischeren Erklärung.

1 „Gefällt mir“

Darf ich vorsichtig fragen, ob es überhaupt wichtig ist, wie man falsche Ergebnisse bei LLMs nennt?

4 „Gefällt mir“

Ich würde sagen, dass ist wie mit dem Verbrenner-Motor und den Abgasen:
Der Verbrenner produziert halt einfach diese Verbrennungsprodukte, das ist eine inhärente Eigenschaft dieser Technologie und nicht wegzukriegen. Man kann zwar mit Hilfsmitteln wie einem Katalysator oder bleifreiem Benzin versuchen die Verbrennungsprodukte etwas zu „entschärfen“ aber man wird sie nicht los, sie gehören halt dazu.

Und so ist es mit den sog. Halluzinationen und der KI auch. Und die Frage hier ist im Grunde, wie wichtig ist es, dass die Leute diesen Zusammenhang verstehen, würde ich sagen.

@loquacious_linguist
Wie gesagt, ich bin inhaltlich bei dir, mich frunstiert es in Gesprächen auch, wenn mangels tieferen Kenntnissen über KI Dinge wie Halluzinationen als zu unkritisch empfunden werden. Trotzdem weiß ich nicht, wie man sie präziser nennen kann, ohne das die Leute gleich abschalten.

Ich glaube schon, dass es für Interessierte wichtig ist. Weil es darauf hindeutet, dass man die Technik nicht verstanden hat und deshalb auch falsch verwendet oder wertet.

Ich habe mir auch schon den Begriff “Halluzination” angewöhnt. Aber er ist ähnlich unpräzise wie “Lüge”, “Betrug”, “Flunkerei”, “Erfindung”.