Die Fähigkeiten der künstlichen Intelligenz

Ich möchte euch hier ein Beispiel geben, wie gut künstliche Intelligenz zur Zeit wirklich ist

Auf den ersten Blick ist das ein gutes Ergebnis.
Jedoch:

Es muss also jede Information als nicht richtig angesehen werden, nahe dran, aber nicht immer richtig.

Auf Nachfrage:

Und das stimmt:

Nur zum Nachdenken :thinking:

3 „Gefällt mir“

ChatGPT (oder LLMs allgemein) sind nicht gleichbedeutend mit KI.
(Mehr zum Unterschied siehe dieser Thread → Künstliche Intelligenz: Nur eine Blase? - #67 von sereksim)

Darüber hinaus ist dein Beispiel eines, für dass es gar keine KI benötigt, da es mathematisch ohne weiteres berechenbar ist. Gleichzeitig ist es damit sogar eine Schwäche von LLMs wie ChatGPT, da diese für sprachliche Zusammenhänge trainiert sind, nicht für mathematische Berechnungen.

Edit: um das ganze etwas zu konkretisieren - Ich könnte dir ohne weiteres ein KI-Modell bauen, das Schaltjahre vorhersagt (falls es dich interessiert, das Prinzip wäre dabei das sog. Supervised Learning, die notwendigen Tools wären Python, Pandas und Scikit-learn). Der Punkt ist, dass deine Problemstellung („prognostiziere mir Schaltjahre“) damit viel besser lösbar ist als mit LLMs, weil die verschiedenen Bereiche und Techniken innerhalb des Bereichs KI jeweils verschiedene Ausrichtungen und Vor- und Nachteile haben

9 „Gefällt mir“

Das erscheint mir wie ein gutes Beispiel um über die Bedeutung richtigen Promptings zu sprechen.

Ich habe die Frage mit einer Technik namens Chain of Thoughs getestet. Dabei gibt man dem llm die Aufforderung seinen Lösungsweg zu beschreiben bevor es die Lösung ausgibt.

Da LLMs Sätze Wort für Wort bilden und stets ihr nächstes Wort auf Basis der vorherigen Worte auswählen, kann diese Ausgabe des Lösungswegs bei komplexen Aufgaben eine bessere Lösung herbeizaubern.

Mein Prompt:

in welchem Jahr ist der 22 mai wieder ein Sonntag. erkläre deine Lösung mit Zwischenschritten.

Die Antwort mit GPT4

ChatGPT findet mit Chain of Thoughts also die korrekte Lösung.

Mir hilft es oft LLMs als Menschen (vor allem Teenies) vorzustellen. Wenn ich denen eine komplizierte Frage stelle, dann raten die. Denn Unwissenheit zuzugeben wäre peinlich und Nachdenken zu aufwendig.

Wenn ich sie aber Schritt für Schritt eine komplexe Aufgabe abarbeiten lasse, dann fällt das ihnen (und uns allen) viel leichter.

6 „Gefällt mir“

Vergleichbares habe ich auch schon produziert. Was mich wundert ist, dass GPT den Fehler, so war es zumindest mehrfach bei mir, direkt einräumt und korrigiert. Insbesondere bei logischen prompt’s (im Gegensatz zu politischen) verstehe ich technisch nicht, wie das passiert.

2 „Gefällt mir“

Spannend ist das deshalb, weil den Menschen vor Augen geführt wird, dass häufig die „natürliche Intelligenz“ doch recht simpel automatisiert werden kann.
Daher könnten Berufe wie „Gutachten schreiben“ ziemlich gut mit KI ersetzt werden. - Aber Deutschland und EU wird solche Entwicklungen durch Vorschriften und Gesetze möglichst lange „verzögern“.

Das Thema hatten wir schon öfters.

Ja, Chat-GPT ist nicht unfehlbar und produziert oft ziemlichen Mist. Vor allem kann man Chat-GPT durch Trickfragen oder Tricks wie die Uhrzeitverstellung natürlich zu falschen Antworten verleiten.

Aber ich verstehe ehrlich gesagt nicht, warum man das als Zeichen für eine besondere Schwäche der KI sieht. Wenn ich einem Menschen erfolgreich einrede, dass wir im Jahr 2028 sind, wird auch ein Mensch mir eine derart dämliche Antwort geben. Natürlich ist es einfacher, einem Chatbot sowas einzureden, als einem Menschen, aber im Prinzip ist es das Gleiche.

Das gilt auch für all diese Trickfragen, an denen Chat-GPT scheitert. Es ist nicht so, dass Menschen nicht auch i.d.R. im ersten Versuch an solchen Trickfragen scheitern würden. Trotzdem würde niemand menschliche Intelligenz deswegen in Zweifel ziehen…

Und nein, wie schon oft gesagt halte ich die aktuelle generative KI nicht wirklich für besonders klug - das Problem ist aber, dass ich die „menschliche Intelligenz“ auch nicht für so besonders erachte, sondern die menschliche Intelligenz in der Tat auch nur das Resultat eines langen evolutionären Prozesses ist, an dessen Ende die Verknüpfung von allem, was wie erleben, in Neuronen steht, die miteinander, beeinflusst durch Hormone und Botenstoffe, agieren. Und menschliche Kreativität ist mMn auch nicht viel anderes als ein Trial-and-Error-Prinzip. Aus diesem Grund - und keinem anderen - sehe ich selbst einfache KI-Anwendungen wie Chat-GPT gar nicht als so weit von der „menschlichen Intelligenz“ entfernt an. Aus absurden Gründen legen an wir künstliche Intelligenzen aber fast schon den Maßstab von Unfehlbarkeit an, während das ständige „Phantasieren“ von Menschen (falsche Erinnerungen, Äußerungen trotz fehlendem Faktenwissen usw.) als Normalität hinnehmen…

Die Frage kommt letztlich immer wieder darauf zurück, wie wir Intelligenz definieren. Nachdem der Turing-Test offensichtlich nicht mehr ausreicht ist gerade die Frage, was „menschliche Intelligenz“ von „künstlicher Intelligenz“ unterscheidet. Und da gibt es unter Philosophen und Neurowissenschaftlern etliche Ansätze, aber keiner davor kommt zu dem Ergebnis, dass die eine Form der „Intelligenz“ strikt besser ist als die andere, es sind schlicht andere Herangehensweisen, wie wir neuronale Netze aufbauen - und wir neigen dazu, alles, was die menschliche Intelligenz besser kann, als Alleinstellungsmerkmal zu überhöhen, während wir alles, was die künstliche Intelligenz besser kann, als nebensächlich abtun. Die Vergleiche, die wir dabei anstellen, sind einfach nicht fair, das Resultat ist aber durchaus richtig:

Es gibt Dinge, die menschliche Intelligenz kann, die für künstliche Intelligenz (noch?) unerreichbar sind.
Es gibt Dinge, die künstliche Intelligenz kann, die für menschliche Intelligenz unerreichbar sind.

Warten wir noch 10 oder 20 Jahre und wir diskutieren vielleicht über die Synthese von menschlicher und künstlicher Intelligenz, dann wird es richtig interessant :wink:

4 „Gefällt mir“

Eigentlich könnte man die Diskussion auch anders führen und sich fragen:
Warum wollen Menschen nach all diesen krassen KI-Fails so unbeirrbar an diese Technologie glauben?

3 „Gefällt mir“

Eine Frage die auch oft den Feuergläubigen gestellt wurde, obwohl sich zahlreiche Stammesmitglieder die Finger verbrannt hatten und so manches Mammutsteak ungenießbar geworden war.

Oder ernsthaft: wir sind in der Hypephase. Gepaart mit unserer schlechte Aufmerksamkeitsökonomie kommen da natürlich unhaltbare Versprechungen. Die sollte man dann mit einer Prise Salz mehmen.

4 „Gefällt mir“

„Künstliche Intelligenz“ ist eine Marketing-Begriff und hat wenig mit dem tatsächlichen Stand der Wissenschaft und Technik zu tun. Nichts an ChatGPT und anderen existierenden LLMs ist „intelligent“ im allgemeinen Sinne des Gebrauchs dieses Worts.

Nein. Denn bei einem ernst gemeinten Gutachten geht es um die Bewertung eines möglicherweise völlig einmaligen Sachverhalts vor dem Hintergrund bekannter Regeln und Gesetze. Eine Würdigung des individuellen Falls ist einem LLM aber schon konzeptionell nicht möglich.

Nur so als Beispiel: Mein Sohn leidet an einer ziemlich seltenen genetischen Erkrankung, die sich in einem noch selteneren Syndrom ausprägt. Weltweit sind eine dreistellige Zahl an Fällen diagnostiziert, die sich aber symptomatisch alle unterschiedlich ausprägen.

Über meinen Sohn werden ständig irgendwelche Gutachten geschrieben, weil das in unserer Pflege- und Förderbürokratie für praktisch jede beantragte Maßnahme so vorgeschrieben ist.

Selbst wenn ein LLM sämtliche Fallberichte und Gutachten aller anderen Menschen mit dem selben Syndrom und die komplette medizinische und therapeutische Historie meines Sohnes als Lerngrundlage hätte, könnte es kein verlässliches Gutachten über die Notwendigkeit einer bestimmten Maßnahme bei meinem Sohn schreiben. Denn ein LLM schaut einfach nur darauf, welches Wort vermutlich auf das letzte Wort folgen wird.

Natürlich können LLMs hilfreich sein. Für einen durchschnittlichen (wenig speziallisierten) Gutachter im Sozialamt meiner Kommune wäre es vermutlich sinnvoll, die genannten Unterlagen in ein LLM zu füttern und sich Zusammenfassungen und Hinweise auf andere relevante Fälle geben zu lassen. Aber wenn mir bekannt werden würde, dass eine Maßnahme für meinen Sohn durch ein von einem LLM verfassten Gutachten abgelehnt wurde, dann würde ich diesen Streit wenn nötig bis zum EuGH tragen.

Was nicht heißt, dass es nicht irgendwann eine „künstliche Intelligenz“ geben wird, die genau das leisten kann. Aber was wir aktuell haben ist im Kern ein ziemlich beeindruckendes Auto-Complete, nicht mehr und nicht weniger.

3 „Gefällt mir“

Ich habe als Offizieller eines Vereins mal ein Interview bei einer Lokalzeitung gegeben und mir dann die Notizen vorlegen lassen. Was da drauf stand war eine Katastrophe und teils das exakte Gegenteil von dem was ich gesagt habe. Trotz gemeinsamer Korrekturen der Notizen haben es dann etliche Fehler in den fertigen Bericht geschafft. Also wirklich gut ist der Mensch was sowas angeht auch nicht.

2 „Gefällt mir“

Ich denke, dass ChatGPT und ähnliche Programme so kalibriert sind, dass sie erstmal versuchen, eine andere Lösung zu finden, wenn sie auf einen Fehler hingewiesen werden. Bei einfacheren Fragestellungen können sie dann mit einem zweiten Versuch zur richtigen Lösung kommen, aber bei schwierigeren Problemen wird sich woanders ein Fehler einschleichen. Ich habe mal eine Weile spaßeshalber versucht, GPT Aufgaben aus dem Mathematik-Studium lösen zu lassen. Üblicherweise kann man da noch so oft auf Fehler hinweisen und kriegt immer nur ein Verschlimmbesserung.

Es ist noch wichtig anzumerken, dass LLMs wie ChatGPT keine interne Logik haben (will sagen: es gibt da keine Unterscheidung zwischen einem „logischen“ und „politischen“ Prompt, beide werden gleich behandelt). KI-Modelle, die mit Logik arbeiten, werden auch entwickelt, profitieren aber generell nicht so sehr vom Hype um LLMs.

Da hat eben das Marketing gut gearbeitet. Schon der Begriff KI ist mindestens fraglich, da es sich eigentlich ehr um ein sehr gutes machine learning handelt. Außerdem wurde unterschätzt, wie schwierig es ist, eine solche Instanz zu trainieren, damit Sie nicht jede Information nutzt, sondern nur vorgegebene. Dazu gibt es wie bei jeder Blase, und nichts anderes ist es gerade, zig Start-ups, die grandiose Lösungen versprechen. Viele halten nicht was Sie versprechen oder setzen extrem viel Arbeitszeit beim Nutzer voraus, so ein System auch nur ansatzweise nutzbar ist, für Chats oder Automails. Sobald es aber leicht spezieller wird bei Sprache oder kreativem Denken, ist die sogenannte KI nicht mehr nützlich oder nur eine Belastung. Weil Sie eben keine echte KI ist.

Vielleicht, weil es KI-Modelle gibt, die Brustkrebs- und Gebärmutterhalskrebsvorstufen besser erkennen als Experten oder besser prognostizieren können, ob Blasenkrebs streut, siehe auch hier mit Kopf- und Halstumoren.
Es gibt auch Forschung, mit KI-Methoden Klimaprognosen zu verbessern.

Das sind jetzt natürlich besonders positive Beispiele, aber es zeigt trotzdem schonmal, dass dein pauschales wieso glaubt überhaupt noch irgendwer daran? die realen Möglichkeiten verkennt.

3 „Gefällt mir“

Wer kontrolliert denn hier, ob die Prognosen stimmen? Wie hoch liegen hier die Fehlerraten?

1 „Gefällt mir“

Das ist natürlich richtig, aber liegt auch daran, dass die Grenzen des menschlichen Geistes sehr gut erforscht sind.
Bei der KI geht es vor allem um Marketing und Fördergelder, es wird also von den Verantwortlichen weniger auf die Schwächen und mehr auf die Stärken geschaut. Da ist es wichtig, dass andere auch immer wieder die Schwächen und Zentrum rücken. Denn ein Entscheider lässt sich gerne mal von Marketing und positiven Berichten einlullen (auch so eine Schwäche des menschlichen Geistes), wenn die Entscheidung dann aber erst mal (falsch) getroffen wurde, ist sie halt gefallen und der Schaden ist da.

1 „Gefällt mir“

Ich weiß es nur von einem Bekannten der bis vor kurzem auf einem solchen Gebiet gearbeitet hat und hier wurde reale Fälle als Grundlage genommen. Es wurden also Fälle vorgelegt, bei denen aufgrund weiterer Diagnostik bereits bekannt war welche Diagnose am Ende richtig war und diese wurde bewertet. Im Vergleich wurden die selben Bilder auch Ärzten vorgelegt, bzw. die historische Diagnose der behandelten Ärzte ausgewertet.

Ich denke ganz grundsätzlich, menschliche mit „künstlicher Intelligenz“ zu vergleichen, führt in die Irre. Wir haben es als Menschen nicht nötig, mit dem Finger auf „die KI“ zu zeigen um zu beweisen, dass sie doch nicht so toll ist, wie alle sagen und zu spekulieren, ob und wann sie es wird.
KI kann und wird nicht die Fähigkeit von Menschen haben; dafür fehlen ihr sensorische und soziale Grundlagen. Eine KI hat keinen kulturellen oder ethnischen Hintergrund, keine politischen oder ästhetischen Vorlieben, keine emotional verknüpften Erfahrungen. Ihre „Black Box“ ist uns mindestens so fremd wie das, was an Denkvorgängen in Tieren vorgehen mag.
KI ist eine Technik, die extrem gute Tools produziert, die wir als Menschen nutzen können und die uns weiterbringen. Diese Tools bergen aber auch große Gefahren für uns Menschen (z. B. in der Rechtsprechung oder auch im Krieg); insofern ist es vor allem wichtig, KI möglichst gut nutzbar zu machen und immer darauf zu achten, dass Menschen die Verantwortung für ihre Entscheidungen übernehmen und nicht an Maschinen delegieren.

1 „Gefällt mir“

Wenn es dich wirklich interessiert, die Studien sind in dem Artikel verlinkt, da kannst du die jeweilige Methodik nachlesen.
Die Kontrolle der Prognosen bzw der Vergleich mit menschlichen Experten ist doch genau das Interessante an solchen Studien, um die Fehlerrate bestimmen zu können. Die Fehlerraten sind dabei geringer als bei Menschen bzw bei etablierten Methoden - das ist doch der springende Punkt!

Eine Studie ist zum Beispiel so vorgegangen:

[…] To create the algorithm, the research team used more than 60,000 cervical images from an NCI archive of photos collected during a cervical cancer screening study that was carried out in Costa Rica in the 1990s. More than 9,400 women participated in that population study, with follow up that lasted up to 18 years. Because of the prospective nature of the study, the researchers gained nearly complete information on which cervical changes became precancers and which did not. The photos were digitized and then used to train a deep learning algorithm so that it could distinguish cervical conditions requiring treatment from those not requiring treatment.
Overall, the algorithm performed better than all standard screening tests at predicting all cases diagnosed during the Costa Rica study. […]

Wie @pbf85 schon schreibt verwendest du für Training und Testing kuratierte Datensätze bei denen du weißt wie die Antwort ist.

Im Grunde zeigst du dem Modell einen Großteil der Daten inklusive des menschlichen Urteils oder labortechnischen Befunds und sagst Schau dir die Daten mal naiv an. Versuch mal selbst Beziehungen zwischen den Daten und dem Urteil/Befund zu finden!. Danach hast du ein trainiertes Modell.

Diesem trainierten Modell gibst du nun den Rest der Daten, die das Modell beim Training nicht gesehen hat (wichtig um Overfitting, also auswendig lernen der Daten, zu vermeiden) und vergleichst wie gut es tatsächliche Befunde/Urteile vorhersagt. Damit bestimmst du die Fehlerrate des Modells.

Im produktiven Betrieb kannst du ebenso alle paar Wochen oder Monate ein paar wenige neue Testdaten kuratieren und das Modell dagegen testen, also die Fehlerrate bestimmen. Werden die Fehler häufiger, spricht man von Data Drift, also sich verändernden Daten. Dann muss man das Modell im Auge behalten und möglicherweise regelmäßig nachbessern.

3 „Gefällt mir“

Diese Aussage erstaunt mich extrem, denn das ist genau etwas, was ich einer KI niemals überlassen würde. Geeignet wäre hier ein LLM wie Chat-GPT, da Text produziert werden muss. Doch diese KIs können nicht rechnen und sollen Gutachten erstellen, z. B. für die Standfestigkeit von Brücken?
Wer übernimmt hier die Verantwortung und die Haftung, wenn etwas schief geht?