Die Fähigkeiten der künstlichen Intelligenz

relang · 29. Oktober 2024 um 16:46

Da hast du recht, bei seltenen Sachen kann KI kaum helfen.

Ich hatte da eher so an ein Gutachten gedacht bei: „Verkehrsunfall: Autofahrer war abgelenkt und fährt dem Vordermann hinten drauf“. x-mal passiert, x-mal ein ähnliches Gutachten, …
Für Spezialfälle braucht es weiterhin den Menschen, aber die restlichen 80% können langfristig automatisiert werden.

Myke · 29. Oktober 2024 um 16:46

Ist es bei technischen Gutachten nicht bereits schon so, dass der Ingenieur vor allem Parameter abruft oder aus Dokumenten abliest, diese in haufenweise Excel Tapeten füttert, und daraus oder durch Spezialtools Diagramme erzeugt, die schon heute mehr oder weniger blind in Platzhalter eines Schreibprogramms eingefügt werden? Anschließend wird der Text noch an ein paar Stellen angepasst und das war’s im Großen und Ganzen.

Warum sollte man das Schreiben des Berichts nicht einem LLM überlassen können? Dann kann sich der Ingenieur auf seine Domäne, das Berechnen und Modellieren, konzentrieren. Zusätzlich kann er den Bericht Korrektur lesen.

Ich hab noch nie einen Ingenieur getroffen, der gern Berichte geschrieben hat (bin selbst einer).

FlorianR · 29. Oktober 2024 um 20:07

In den Bereichen Naturwissenschaft, Technik, Ingenieur ist das meines Wissens nach nicht so. Wenn Du z. B. ein Haus in Hanglage bauen möchtest, brauchts Du dafür ein Baugrundgutachten, um Randbedingungen für den Bau festzulegen, z. B. wie das Fundament ausgelegt werden muss. Könntest Du beruhigt bauen, wenn Chat-GPT das erstellt hat? Oder würdest Du gerne in ein Flugzeug steigen, dass Chat-GPT per Gutachten freigegeben hat?
Kann sein, dass bei unterschiedlichen Gutachten Bereiche nahezu identisch sind, doch da kann man jetzt bereits copy & paste machen. Das ist nicht der Zeitaufwand. Das wesentliche an einem Gutachten ist doch, dass der Auftraggeber jemanden möchte, der ihm einen Sachverhalt beurteilt. Dein Vorschlag Gutachten von Chat-GPT schreiben zu lassen, ist im technischen Bereich analog dazu Richter durch Chat-GPT zu ersetzen. Bzw. geht das vermutlich sogar noch besser, da hier im Allgemeinen keine Berechnungen oder Beurteilungen von technischen Randbedingungen notwendig sind.

Davidus · 30. Oktober 2024 um 08:25

So habe ich Myke nicht verstanden. Argumentiert wurde doch eher, dass die Berechnung und modellierungen vom Ingenieur übernommen werden. Also die eigentliche Hauptaufgabe beim Gutachten. Anschließend soll das Sprachmodell auf Basis dieser Berechnung, die ja auch in einer speziellen Form ( z.B als Tabelle) festgehalten sind einen Text übersetzten, der dann nur noch mal gegengelesen werden muss.

pbf85 · 30. Oktober 2024 um 08:41

Es geht ja um das Schreiben, nicht um das Erfassen der wichtigen Randbedingungen.

Bei einem solchen Gutachten ist ja eigentlich das drum herum das wichtige und das Schreiben selbst ist nur Fleißarbeit in der nicht selten Fehler entstehen, z.B. eben durch Copy&Paste.

Das Schreiben des Textes aus den vom Experten erfassten und bewerteten Rahmendaten mit einer KI zumindest zum Großteil zu automatisieren sehe ich daher nicht zwangsläufig als großes Risiko.

Bei bestimmten Gutachten, z.B. in Bereichen wie Energieberatung für Förderanträge könnte ich mir sogar vorstellen, dass man durch die Eingabe der wichtigen Daten sogar guten Gewissens automatisierte Gutachten erstellen könnte die nicht schlechter sind als das was heute Menschen machen, alleine schon weil in solchen Bereichen oft mit minimalem Aufwand gearbeitet wird und somit die Präzision des Menschen auch leidet.

faust · 30. Oktober 2024 um 09:38

Ich sehe da einen Mehrwert durch Automatisierung, aber keinen durch KI. Rahmendaten in Text übersetzen ist eine ziemlich starre Aufgabe, die ein Programm übernehmen könnte, das auf feste Textblöcke zurückgreift. Da braucht es keine generativen Fähigkeiten.

relang · 30. Oktober 2024 um 10:35

Es ist immer der Sachbearbeiter, der die Verantwortung übernimmt. LLM, ChatGPT ist nur ein Hilfsmittel (wie ein Bleistift) das kann niemals die Verantwortung übernehmen.
Und wenn eine Firma automatisierte Systeme aus solchen Hilfsmitteln zusammengebaut werden (z.B. automatisierter Aktien Kauf/Verkauf) ist immer die Firma haftbar - niemals das Hilfsmittel.

FlorianR · 30. Oktober 2024 um 11:53

Es ging explizit darum den ganzen Beruf zu ersetzen.

Entsprechend gäbe es auch keinen Sachbearbeiter mehr der die Verantwortung übernehmen könnte.

Chat-GPT als Tool zum Schreiben von Gutachten zu verwenden, ist etwas ganz anderes. Das kann jeder Gutachter selber entscheiden. Er kann das Gutachten ja auch vom Sekretariat erstellen lassen. Er unterschreibt jedoch selber und übernimmt die Verantwortung.

thunfischtoast · 30. Oktober 2024 um 13:08

Ich hätte ein Gegenbeispiel.
Betrachte folgenden Prompt:

Eine Krankheit hat eine Prävalenz von 1 / 1000.
Ein Test für diese Krankheit hat eine Sensitivität von 100% und eine Spezifität von 95%.
Wenn ich ein positives Testergebnis erhalte, wie wahrscheinlich ist es, dass ich diese Krankheit wirklich habe?

Bevor ihr die Lösung anschaut lade ich jeden ein, einmal selbst über die Lösung nachzudenken.
Zur Info:

Prävalenz ist, wie häufig eine Krankheit in der Bevölkerung vorkommt, 1 / 1000 heißt also jeder 1000ste hat die Krankheit im Schnitt.
Sensitivität ist, bei welchem Anteil der Erkrankten der Test positiv ist (100% = alle).
Spezifität ist, welcher Anteil der positiven Testergebnisse korrekt ist (95% heißt also: wenn der Test positiv ist ist dieser in 19 von 20 Fällen korrekt).

Die korrekte Antwort ist hier: https://chatgpt.com/share/67222bec-bf48-8013-beec-2755d7643788

Falls ihr nicht richtig lagt, keine Panik. In einer kleinen Studie unter OberärztInnen, AssisstenzärztInnen und Medizinstudierenden aus dem Jahr 2014 konnten nur 23% eine richtige Antwort geben.

Nun zeigt weder mein noch dein Beispiel oder Über- oder Unterlegenheit von künstlicher Intelligenz als ganzes. Das geht nichtmal, weil KI nicht scharf definiert ist, und ChatGPT nur eine mögliche Anwendung von KI ist. Ich verdamme auch nicht alle Handwerkzeuge, weil sich mit einem Schraubendreher so schlecht Nägel in die Wand hämmern lassen: es kommt darauf an, das richtige Tool für die richtige Situation zu wählen.
ChatGPT ist hauptsächlich ein Tool, welches Text aus vorhergehendem Text generieren kann. Das zugrundeliegen Programm hat aus vielen Texten sinnhafte Zusammenhänge gelernt und kann diese begrenzt miteinander in Verbindung bringen, bleibt dabei aber in der Regel auf der Text-Ebene. Die neuste Version kann auch einfache Mathematik, indem es selbst im Hintergrund kleine Programm (Python) ausführt, dazu muss die Frage aber passend gestellt werden: Die Fähigkeiten der künstlichen Intelligenz - #3 von Myke
Aber auch darauf würde ich mich aktuell nicht verlassen.

thunfischtoast · 30. Oktober 2024 um 13:29

Aktuell sind wir sehr weit davon entfernt, dass KI-Methoden alleinig über bestimmte Diagnosen entscheiden.
Ich kann es am Beispiel der Brustkrebsvorsorge (Mammographie-Screening) erklären.
Aktuell ist es so, dass Frauen in einer bestimmten Alters-Range zum Screening eingeladen werden.
Von denen, die kommen, werden dann Röntgenaufnahmen der Brüste angefertigt.
Die Bilder werden von zwei Spezialisten unabhängig voneinander befundet.
Wenn einer von denen einen Verdacht für Krebs hegt werden noch weitere Spezialisten dazugezogen und wenn ein Konsens zu einer hinreichenden Krebsgefahr besteht werden weitere Untersuchungen eingeleitet.
Im Optimalfall kommen die Frauen alle 2 Jahren zum Screening, von daher haben wir hier eine sehr gute Datenlage.
Kommte es doch mal zu einem vorher unerkannten Krebs, einem sog. Intervallkarzinom, kann man anhand der Bilder gut nachvollziehen, um die Menschen einen Fehler gemacht haben (denn man darf nicht vergessen: auch mit einem Vier-Augen-Prinzip sind Menschen nicht unfehlbar!) oder ob es nicht abzusehen war.

Die ersten KI-Methoden sind nun als zusätzliches Tool zu den bestehenden vier menschlichen Augen im Einsatz und es werden die Prognosen der Programme aufgezeichnet. Mit einigen Jahren Versatz können wir dann errechnen, wie viele der tatsächlichen Erkrankungen vom Programm mit einer hohen Wahrscheinlichkeit belegt wurden und wie viel übersehen wurden.

Bei der Fehlerrate unterscheidet man zwischen der False Negative Rate (wie viele echte Erkrankungen wurden nicht erkannt?) und der False Positive Rate (wie viele gesunden wurden falsch als Krank erkannt). Das ist ein Verhältnis, welches man beeinflussen kann, in dem man einstellt, wie sensibel das Programm sein soll, weswegen es nicht die eine definitive Fehlerrate gibt.
Eine relativ neue Studie ist hier: https://pubs.rsna.org/doi/10.1148/radiol.222639?url_ver=Z39.88-2003&rfr_id=ori:rid:crossref.org&rfr_dat=cr_pub%20%200pubmed

pintxo · 30. Oktober 2024 um 14:41

Ich hänge mich mal an das Thema KI beim Radiologen.

Denn ich sehe da ein Problem auf uns zukommen, für das ich noch keine Lösung sehe.

In dem Moment, wo die KI deutlich besser Bilder auswerten kann als Menschen, wird es in der Bevölkerung/Politik/Medien einen starken Drang geben Menschen durch die KI zu ersetzen, weil „ist ja besser“.

Nun werden heute alle KI Modelle trainiert, wie von @thunfischtoast erklärt, auf der Basis von existierenden Daten. D.h. die können auch nur erkennen, was vorher ein Mensch bereits entdeckt und markiert hat.

Nach etlichen Jahren fast reiner Bildbewertung durch KI werden wir so gut wie keine Radiologen mehr haben, da es hier ja sehr viel um (konstantes) Training auch für den Mensch geht. Und wenn die Maschine besser ist als ich, wieso sollte ich mich da überhaupt ransetzen?

Es gibt dann also keine neuen Trainingsdaten mehr. Bzw. man kann dann nur noch mit gröberen Daten wie: „Patienten war in der Bildgebung unauffällig, ist aber trotzdem gestorben und der Pathologe sagt es war Krebs X“, arbeiten.

Klingt für mich so, als ob wir hier stark dabei sind uns in ein lokales Maximum zu begeben, aus dem wir dann nicht mehr herauskommen?

relang · 30. Oktober 2024 um 15:29

Naja, das wird sicherlich nicht passieren. Auch heute gibt es noch den Beruf des Pferdekutschen-Fahrers. Aber der hat halt nicht mehr so viel zu tun - im Vergleich zu vor 100 Jahren.

Myke · 30. Oktober 2024 um 15:29

Interessantes Problem, aber haben wir nicht die Möglichkeit aus dem Szenario

retrospektiv Bilder zu analysieren?

Ich bin allerdings auch kein Freund davon KI-Lösungen zu produktionalisieren um damit Arbeitsplätze abzubauen. Aus meiner Sicht sollte die KI auffällige Bereiche auf einem Bild highlighten und damit die Aufmerksamkeit des Arztes dorthin lenken. Die finale Bewertung sollte noch längere Zeit beim Arzt liegen.

sereksim · 30. Oktober 2024 um 15:30

Nein, gute Modelle können später unter Umständen auch besser sein, als Menschen. Sie könnten also auch Fälle erkennen, die ein Mensch übersehen würde. Dass die Trainingsdaten auf den von Menschen erkannten Fällen basieren, steht dazu nicht im Widerspruch.

Die KI wird von RadiologInnen genutzt werden. Es geht nicht darum, den Beruf Radiologe vollständig zu ersetzen.

Es spricht ja nichts dagegen, die Einschätzung der RadiologInnen weiter festzuhalten, auch wenn diese im Anschluss zusätzlich eine Einschätzung der KI bekommen. In dem Fall hätte man trotzdem weiter Trainingsdaten → es gibt das Bild, die Einschätzung des Radiologen, die Einschätzung der KI und mit zeitlichem Verzug ggf eine Krebsdiagnose oder -erkrankung.

Ergänzend siehe auch das was @Myke gesagt hat:

pintxo · 30. Oktober 2024 um 16:13

Die Frage ist, kann das Modell besser sein, als die Menschen, die die Trainingsdaten erstellt haben (wir nennen die mal Trainer hier)? Das es Menschen gibt die schlechter in diesem Job sind als das Model ist ja nicht verwunderlich, die sind vermutlich auch schlechter als die Trainer.

pintxo · 30. Oktober 2024 um 16:15

Klar geht das, die Frage ist eben nur, ob die Qualität der Trainingsdaten gut genug ist? Und ich befürchte die Antwort lautet nein.

sereksim · 30. Oktober 2024 um 16:42

Ja, das ist doch der springende Punkt bei Maschinellem Lernen. Wenn es funktioniert kann das Modell am Ende sogar Muster und Verbindungen erkennen, die man als Mensch so nicht erkannt hätte. Diese höhere Genauigkeit wurde ja in den oben von mir verlinkten Studien auch gezeigt (bei bestimmten Arten von Krebs). Die Sensitivität ist also schonmal da (-> kleinere Fals-Negative-Rate als beim Menschen). Ob die Spezifität bzw die False-Positive-Rate auch so gut ist weiß ich tatsächlich nicht. Die muss natürlich auch berücksichtigt werden.

Natürlich weiß man das alles im Allgemeinen nicht im Vorfeld, aber in diesem Fall gibt es schon eindeutige Indizien und Zwischenergebnisse.

thunfischtoast · 30. Oktober 2024 um 16:47

Das sind viele spannende Fragen, die wir diskutieren können, aber ich versuch mich kurz zu halten:

Ein Aspekt ist, dass die Bildinformation z.B. aus einem Röntgen-Bild sich nicht 1:1 auf eine Krebsgefahr abbilden lässt. Nicht jedes röntgendichte Knötchen ist behandlungswürdig, und nicht jede Erkrankung äußert sich vorher unbedingt in einem Bild. In die Gesamt-Einschätzung fließen die Lebensumstände ein (z.B. ist die Patientin Raucherin?) und bei der Brust fließen beispielsweise noch andere Eigenschaften des Gewebes mit ein. Aktuell sind die Programme noch vor allem auf die Bild-Informationen beschränkt und haben eine entsprechend eingeschränkte Aussagenkraft, aber das wird sich noch ändern.

Dann sind wir aktuell noch bei 2-dimensionalen Röntgenbildern, aber wenn wir mehr Dimensionen dazu nehmen (wie bei der Digitalen Brusttomosynthese oder einem MRT), so kann ein Computerprogramm mehr Informationen als ein Mensch nutzen: die resultierenden 2-dimensionalen Schichtbilder, die sich die Menschen auf einem 2-dimensionalen Bildschirm anschauen, sind nämlich nur Rekonstruktionen aus komplexeren Messdaten, die die Daten für unsere Augen aufbereiten. Ein Programm hat jedoch, zumindest die theoretisch, die Möglichkeit, in den Rohdaten Signale zu finden, die für uns verborgen bleiben. Das könnte insbesondere bei innovativen photo-akkustischen Systemen interessant werden, die ohne ionisierende Strahlung auskommen.

Letzteres wird sehr lange die Norm bleiben, ein voll-automatisches Diagnosesystem ist derzeit nicht in Sicht. Anders als in anderen Bereichen, wo ggf. Arbeitskräfte wegrationalisiert werden werden wir m.E.n. sehr bald jede Hilfe in der Versorgung nutzen müssen, die wir bekommen können. Im Lungenkrebsscreening-Programm, welches derzeit in Entwicklung ist, wird der Einsatz von zwei menschlichen Befundern wahrscheinlich unrealistisch sein - dort könnten ein menschlicher und ein maschineller Befunder die Norm werden.

Insofern ja, als dass nach einigen Jahren dann ja eine „Ground Truth“ vorliegt - irgendwann ist die Krankheit aufgetreten oder eben nicht. Den größeren Einfluss hat aber m.E. die Ambiguität, die wir immer in der Biologie haben, wie im ersten Absatz geschrieben.

Das ist aktuell noch ein schwieriger Punkt. Daten sind in unserem Gesundheitssystem unglaublich chaotisch und schwer zugänglich. Aber daran forschen wir =)