Künstliche Intelligenz: Nur eine Blase?

Margarete · 23. Juli 2024 um 10:51

Matder · 23. Juli 2024 um 11:01

Bei Fefe ist ein mMn sehr interessanter Blog-Post (Link zu Fefe) dazu aufgetaucht, dessen Quelle ich hier mal verlinken will:

Die Quelle scheint auch „nur“ ein Blogbeitrag zu sein, aber es werden diverse große Zeitungen und Institute zitiert (Financial Times, Economist, Goldman Sachs).

Die Zusammenfassung des Blogbeitrags ist so ungefähr dieses Einzelzitates hier:

Their conclusion? AI’s impact as a productivity-boosting technology basically can’t be seen at all in the macroeconomic data. It has had pretty much zero impact on productivity or almost anything else. It may as well not exist.

Noch wichtiger finde ich aber die Zusammenfassung von Fefe dazu, weil sie auch einen, meiner Meinung nach, sehr bestechenden Erklärungsansatz für die mangelnde Produktivitäts-Steigerung durch KI enthält:

Die „Performance“ von „KI“ hängt im Wesentlichen davon ab, wie viel Trainingsdaten man hatte. Tätigkeiten, bei denen es Trainingsdaten wie Sand am Meer gibt, sind aber schon fast per Definition nicht wertvolle Bausteine der Wertschöpfungskette, sondern halt allerweltsscheiß.

Das finde ich durchaus nachvollziehbar.
ChatGPT z.B. ist ja mit Massen von frei verfügbaren Internet-Unterhaltungen gefüttert worden. Aber diese Unterhaltungen konnte man schon vor ChatGPT (mit Google und Co.) nach etwas Übung effizient durchsuchen. In diesem Fall schafft ChatGPT also beispielsweise keinen Mehrwert.

Ähnlich ist es, meiner Meinung nach, mit generativen KI-Programmen für Bilder.
Die ist ja mit unglaublich vielen vorher verfügbaren Bildern gefüttert worden, um dann neue KI-Bilder z.B. für Werbeanzeigen zu erzeugen.
In vielen Fällen wären aber vermutlich irgendwo in den Trainingsdaten-Bildern schon ausreichend passende Bilder (z.B. Stock-Fotos) für die Werbeanzeige gewesen. Auch hier kann der Mehrwert der KI-Programme also kritisch gesehen werden.

Jens2 · 23. Juli 2024 um 21:19

Ich weiß nicht, ob du mit den neueren Modellen wie GPT-4 oder Claude-3.5 schon mal intensiver selbst gearbeitet hast. Wenn man damit ein wenig Erfahrung gesammelt hat, merkt man, dass die LLMs genau da gut sind, wo Suchmaschinen wie Google nicht gut sind und umgekehrt.

Zu dem von dir zitierten Artikel: „none of the economic impact“ ?? Man sieht doch jetzt schon erste ökonomische Vorteile, obwohl wir noch ziemlich am Anfang der Entwicklung stehen. Die Modelle bringen in vielen Bereichen deutliche Produktivitätsvorteile. Etwa in der Softwareentwicklung wie turmfalke ja schon gesagt hat (kann ich aus eigener Erfahrung bestätigen). Ein schon etwas älterer Bericht, wie LLMs in der anwaltlichen Arbeit helfen können, finden sich hier.

Stuart Russel ist Informatik-Professor, Mitautor eines bekannten KI-Lehrbuches und eine der bekanntesten Stimmen in der KI. Er hat hier einen recht unterhaltsamen Talk unter dem Titel „What if we succeed?“ gehalten:

Damit ist natürlich gemeint: was, wenn uns AGI (also artificial general Intelligence = Intelligenz auf menschlichem Niveau) gelingt ? Und das uns das früher oder später gelingen wird, davon gehen praktisch alle Experten aus. Russel rechnet dann mit einer möglichen Verzehnfachung des weltweiten BIP und einem überschlagenen Netto-Nutzen von 15 Billiarden (engl: „quadrillion“) Dollar, also 15000000 Milliarden Dollar. Zum Vergleich: der deutsche Bundeshaushalt liegt gerade mal in der Größenordnung von 500 Milliarden und Microsoft hat nur schlappe 13 Milliarden (ein Millionstel dieses Betrages) in OpenAI investiert. Russel geht davon aus, das - je näher wir dem Erreichen von AGI kommen - dieses sich anbahnende Ereignis wie ein Magnet auf immer größer werdende Investitionen wirken wird.

Ich sehe das ähnlich wie aarn: es ist allen klar, dass das Skalieren von LLMs (Large Language Models) uns zwar dem Ziel näher bringt, aber letztlich alleine nicht ausreichen wird, um AGI zu erreichen. Das wissen auch die Frontier-Labs (OpenAI, Anthropic, Google/Deepmind etc.) von denen alle AGI anstreben.

Zum Vergleich mit dem menschlichen Denken wird oftmals ein Modell aus den Kognitions-Wissenschaften verwendet, das durch den Kognitionspsychologen und Nobelpreisträger Daniel Kahneman bekannt geworden ist. Er hat 2011 den Bestseller “Thinking Fast and Slow” veröffentlicht, der auch auf deutsch erschienen ist (Link). Dieses Modell besteht aus zwei Komponenten: “System 1” (schnelles, intuitives Denken) und “System 2” (langsames, bewusstes und schrittweises Denken). Als Beispiel zeigt Kahneman im Buch das Bild einer wütenden Frau. Wenn man drauf schaut, erkennt man sofort, dass die Frau wütend ist und wahrscheinlich gleich etwas herausschreien wird. Nicht nur kommen diese Gedanken völlig mühelos - man kann sich förmlich gar nicht dagegen wehren, dass man das denkt. Das ist ein Beispiel für schnelles, intuitives Denken (“System 1”). Auch wenn es um einfache Mathe-Aufgaben geht (was ist 2 plus 2 ?), weiß jeder von uns sofort, was die Antwort ist. Wir haben das einfach gelernt. Komplexere Mathe-Aufgaben (z.B. 439 mal 27 = ?) erfordern hingegen eine andere Art des Denkens: “System 2”. Wir müssen hier bewusst und schrittweise vorgehen und uns im Kurzzeitgedächtnis möglicherweise Zwischenergebnisse merken. Diese Art des Denkens fühlt sich nicht nur anstrengender an, man kann auch messen, dass das Gehirn dafür deutlich mehr Glukose benötigt. System 2 wird aktiviert, wenn eine Aufgabe Aufmerksamkeit erfordert, z.B. auch beim logischen Denken und wenn Entscheidungen rational abzuwägen sind.

Jens2 · 23. Juli 2024 um 21:19

Auf KI übertragen, arbeiten LLMs aktuell auf der intuitiven (durch Erfahrung gelernten) Ebene von System 1. Ein LLM verhält sich in etwa so, wie wenn ein Mensch gezwungen würde, ohne Nachzudenken (ohne System 2 einzuschalten), auf Anhieb eine Antwort zu geben. Das klappt auch für Menschen oftmals ganz gut, wenn es um Dinge geht, die man aus Erfahrung heraus „einfach weiß“. Bei komplexeren Problemen ist eine sofortige Antwort aber oft unausgegoren. Es ist dann eben notwendig, erst einmal mithilfe des kontrollierenden System 2 über das Problem nachzudenken, verschiedene Gedanken abzuwägen, Ideen zurückzuspielen, bevor man zu einer abschließenden Antwort kommt. Interessanterweise liefern auch LLMs bessere Ergebnisse, wenn man sie auffordert, noch einmal über eine gegebene Antwort nachzudenken (siehe dazu etwa diesen Talk über „Agentic Reasoning“). Und auch LLMs können einfache Matheaufgaben auf Anhieb lösen, scheitern aber regelmäßig etwa bei der Multiplikation dreistelliger Zahlen.

Die Defizite der aktuellen Systeme liegen eben vor allen in den System 2 Fähigkeiten (manchmal auch als „Reasoning“ bezeichnet). Außerdem können die Modelle zwar die Konversationshistorie und über Interaktionen mit der Außenwelt Gelerntes im aktuellen Kontextfenster (=Kurzzeitgedächtnis) halten, können diese Informationen aber nicht selbstständig in den Gewichten ihres neuronalen Netzes (= ihres System 1) verankern - wie Menschen und Tiere dies tun können.

der_Matti · 24. Juli 2024 um 04:31

Wir sind jetzt in den first 80% und es geht alles rasend schnell. Man hat gesehen, wie die Wirtschaft die Flinte ins Korn warf, als es beim selbstfahrenden Auto in die last 20% ging. Um eine Quatrillion Output zu erzielen wird auch ein unglaublicher Input von Nöten sein. Es wird Einsparungen geben. Aber in dieser Größenordnung?
Alle waren von der Quantentechnologie geflasht, jetzt stehen sie vor den Reaktoren und wissen gar nicht richtig, wie es nun weiter gehen soll. Die Technik hat geliefert, aber nicht das, was für Forscher erwartet haben. Jeder schmeißt im Moment Unmengen Geld auf AI weil er das next big thing nicht verpassen will. Es wird spannend zu sehen, wie diese Leute mit den ersten Rückschlägen umgehen werden.

turmfalke · 24. Juli 2024 um 04:53

Ich muss hier auch nochmal eine schiefe Vorstellung richtig ziehen:

ChatGPT ist nicht dafür gebaut als Suchmaschine zu fungieren. ChatGPT ist ein Basis-Modell, dass für unzählige Einsatzmöglichkeiten gedacht ist.

Besser als Google-Suchen filtern und zusammenfassen finde ich den Einsatz zusammen mit Wissensdatenbanken in Unternehmen. Oft suche ich in diversen Unternehmenssharepoints nach spezifischen Dokumenten (bspw. eine Referenzarchitektur für unseren Netzwerkaufbau, IT-Security Matrizen für unsere Softwareproduke usw.), und kann sie nicht finden. Oft ist nicht klar in welchem Sharepoint die Dateien liegen und selbst wenn ich es weiß, ist sind die Dokumente oft 100+ Seiten lang.

Wenn ich die Dokumente in eine Wissensdatenbank packe und ein LLM im Rahmen einer RAG-Lösung damit betraue das gesuchte Dokument zu finden, muss ich danach nicht mehr suchen. Beim letzten Durchgang habe ich so ein Dokument in 10 Minuten gefunden, nach dem ich zuvor schon mehrfach erfolglos gesucht habe (jeweils über 1h).

Hier versucht Felix mal wieder der Einschaltquote wegen zu polemisieren. Schon heute gibt es viele KI-Lösungen, die produktiv laufen und einen bedeutenden Mehrwert liefern, indem sie Mitarbeiter von wertlosen Arbeiten entlasten.

Ein Beispiel aus einem Projekt, in dem ich selbst beteiligt war. Wir haben mit dem MNIST-Datensatz (enthält 70.000 Bilder von handgeschriebenen Buchstaben und Zahlen) ein Modell trainiert, dass helfen sollte IBANs auf gescannten Dokumenten automatisch zu erkennen und zu verarbeiten. Es zeigte sich, dass das Modell bei der Erkennung der IBAN weniger Fehler machte als unsere menschlichen Profis.

Wir konnten also eine Tätigkeit mit Trainingsdaten wie Sand am Meer automatisieren, wodurch unsere Mitarbeiter nun mehr Zeit für wertvollere Arbeiten haben.

Natürlich haben wir nicht bei IBANs gestoppt. Heute können wir eine Vielzahl Dokumente automatisch verarbeiten, die zuvor ein Mitarbeiter in Masken eintippen musste. An anderer Stelle organisieren wir außerdem die Anonymisierung von Dokumenten mit NLP-Modellen, wodurch Mitarbeiter viel seltener noch selbst Dokumente schwärzen müssen. Der daraus resultierende Wertgewinn der Arbeit dieser Mitarbeiter ist beachtlich.

Ich denke also, dass Felix hier auf dem Holzweg ist oder ein sehr stranges Verständnis davon hat was KI ist.

Matder · 24. Juli 2024 um 05:43

Wo genau sind die LLMs den besser als die Google-Suche? Und vor allem, wie entsteht dabei der Produktivitätsgewinn? Ich finde das Argument etwas zu wage.

In dem Blogeintrag oben wird von verschiedenen Seiten genau das verneint. Wo kann man diese ökonomischen Vorteile also sehen?
Ich würde eher sagen, man sieht Potenziale bzw. hat Erwartungen. Aber die sah man schon die ganze Zeit, quasi seit der KI-Hype letztes Jahr losging. Aber nicht jede Technologie erfüllt ihre Erwartungen.

Das ist ein interessanter Gedanke. Dazu fällt wir dieser alte Informatik-Witz ein:

Warum können Computer so schnell rechnen? Weil sie nicht nachdenken müssen.

Und ich würde sagen, dass du mit dem Teil, dass LLMs quasi „intuitiv“ arbeiten, auch irgendwo recht hast. Computer-Programme (wie LLMs) müssen eben nicht nachdenken sondern wurden programmiert, oder eben trainiert, wie sie auf Dateneingaben (Sprache, Zahlen usw.) reagieren sollen.

Ich will aber hier jetzt eigentlich gar nicht soweit in Richtung von „AGI“ spekulieren, weil @TilRq diesen Thread mMn ja eher als Diskussion über den wirtschaftlichen Impact der aktuellen LLMs eröffnet hat.

Das kannst du z.B. über die Rechtsschreib-Korrektur in deinem E-Mail-Programm auch sagen. Die nimmt dir theoretisch auch ab, jedes Wort einzeln im Wörterbuch nachzuschlagen. Warum gab es also bei der Einführung solcher Korrektur-Programme keinen gewaltigen Produktivitätssprung? Es werden doch schließlich täglich Millionen geschäftlicher Mails geschrieben?
Weil es in über 99% der Mails egal ist, wenn mal ein Wort falsch geschrieben ist. Deswegen sind solche Rechtsschreib-Hilfen zwar nicht sinnlos aber nur in sehr wenigen Fällen wirklich wichtig und damit wertvoll.

Und genau das sagt der Blogeintrag oben aus: LLM sind zwar nicht völlig nutzlos, aber weit überschätzt. Eben so als würde man denken, dass wir alle ohne Rechtsschreib-Hilfen in Computer für jede einzelne Mail die Duden auspacken würden.

Klar gibt es solche sinnvollen Anwendungen. Aber OCR (Optical Computer Reading) gibt es schon seit Jahrzehnten. Aber deswegen ist doch z.B. Nvidia nicht zum wertvollsten Unternehmen der Welt geworden (Quelle), sondern weil es gerade völlig überzogene Erwartungen an quasi alles, was mit „KI“ zu tun hat, gibt.

pbf85 · 24. Juli 2024 um 06:46

Die Frage ist auch ob man eine Arbeitserleichterung immer auch in Produktivitätsgewinnen sehen kann oder ob es nicht manchmal auch Qualitätsgewinne sind.

Ich bin selbst nur am Rande mit KI in Berührung, aber auch das sind ja potentielle Anwendungen.

Nehmen wir eine relativ einfache Aufgabe wie Übersetzungen. Im Maschinenbau sehe ich wie selbst große Unternehmen oft sehr schlecht übersetzte oder formulierte Betriebsanleitungen haben. Die Übersetzer die das machen sind oft entweder in der Sprache oder der Technik nicht ausreichend gut. Am Ende bekommt man Betriebsanleitungen mit ganzen Abschnitten die kaum verständlich sind. Und selbst in der Originalsprache sind aufgrund der häufigen Umarbeitungen oft Absätze die kaum lesbar sind.

Auch wegen der Dauer und den häufigen Änderungen wenn es um Produkte mit kleinen Stückzahlen oder gar Einzelanfertigungen geht lohnt sich professionellere Übersetzung und Lektorat oft nicht bzw. die Anleitung wird im Anschluss noch mehrfach überarbeitet.

Wenn jetzt ein Sprachmodell wie Chat GPT das Übersetzen übernimmt was vorher für eilige Arbeiten oft einfach der Ingenieur selbst gemacht hat und ganze Absätze nochmal korrigiert, dann wird man nirgends irgendwelche wirtschaftlichen Kennzahlen verbessern. Aber die Qualität der Betriebsanleitungen wird besser.

Es wird in der Folge weniger Schäden durch Fehlbedienung geben, weniger Nachfragen, weniger Reklamationen. Gerade kleine Firmen ohne eigene Abteilungen für solche Arbeiten werden dadurch deutlich entlastet.

In anderen Bereichen mag die KI direkter in das Geschäft integriert werden, aber solche Beispiele zeigen für mich, dass Effekte nicht immer nur in wirtschaftlichen Kennzahlen messbar sein müssen, vor allem nicht kurzfristig.

Und der Vergleich mit der Autokorrektur passt da doch ganz gut. Auch da dürfte der Effekt auf die Qualität größer sein als auf die Produktivität.

TilRq · 24. Juli 2024 um 07:34

Aus meinem Alltag kenne ich viele Routine-Aufgaben, die ich gerne an eine KI delegieren würde, die (hier: ChatGPT 4 oder Perplexity) das aber nicht können (oder ich habe nicht die richtigen Prompts gefunden):

Leider gibt es offenbar keine KI, die auf mein Themenfeld (M&A in KMU) trainiert ist. Wir sind bedauerlicherweise zu klein und haben daher keine Ressourcen, uns so eine erstellen zu lassen. Und ich habe bislang keine guten Schulungsangebote für Prompt Engineering in meinem Themenfeld gefunden.

Recherche anhand einer vorgegebenen Themenstruktur: Scheitert hauptsächlich daran, dass viele der gesuchten Informationen nicht öffentlich zugänglich sind, und wir keinen Zugang zu Informationen hinter Paywalls haben: Man kann die eigenen Zugangsdaten bedauerlicherweise nicht hinterlegen.
Analyse von z.B. Jahresabschlussunterlagen (als PDF importiert) über mehrere Jahre anhand einer Liste konkret vorgegebener Fragen: Das Ergebnis ist sehr generisch, auch wenn ChatGPT manchmal Zusammenhänge findet, die ich nicht erkannt hatte.
Eine konkret vorgegebene Mehrjahresübersicht in Excel über die Gewinn- und Verlustrechnungen der letzten Jahre anhand von importierten PDF-Jahresabschlüssen: ChatGPT kennt die betriebswirtschaftlichen Synonyme nicht (so identisch strukturiert sind Jahresabschlussunterlagen leider nicht) und erkennt auch nicht, wenn die Benennung von Jahresüberschuss zu Jahresverlust wechselt und dabei ggf. das Vorzeichen ändert.
Erstellung eines Sales-Memorandums mit vorgegebener Struktur auf Basis von recherchierten Informationen: Das Ergebnis ist schon ganz okay, aber der Aufwand für den Feinschliff ist ebenso groß wie der Aufwand, das Memo gleich selbst zu schreiben. Für Menschen, die nicht gerne schreiben oder glauben, nicht gut zu schreiben, ist das schon eine Erleichterung.
Routine-Bedienung einer (hier Web-) Anwendung (hier CRM) mit den immer gleichen Abfolgen abhängig vom jeweiligen Geschäftsvorfall: KI könnte hier ganz erheblich Zeit sparen und helfen, Flüchtigkeitsfehler zu vermeiden.

Alle diese Versuche haben mich unheimlich viel Zeit gekostet und ich habe letztlich aufgegeben.

Ja, Zusammenfassen, Korrekturlesen (z. B. der Text hier), Umformulieren – das klappt alles relativ gut. Die Arbeitsergebnisse werden formal besser. Aber ich werde dadurch kaum schneller.

Was wirklich gut funktioniert, ist die Beantwortung ganz konkreter Wissensfragen mit Perplexity (ich weiß nicht, wie gut Google Gemini im Vergleich dazu ist – die Werbung suggeriert so etwas). Das reduziert im Vergleich zu „Googeln, Selektieren, Lesen, Schlussfolgern“ ganz erheblich den Aufwand.

Der eigentliche Showstopper für das Arbeiten mit KI ist jedoch nach wie vor das Halluzinieren, vor allem wenn es um Nicht-Allerwelts-Themen geht. Im professionellen Umfeld kann man sich das nicht leisten und muss eigentlich alle Ergebnisse streng überprüfen. Das ist der Zeit-Killer schlechthin!

Sehr gut finde ich die KI im LanguageTool zur Rechtschreibkorrektur sowie in DeepL zum Übersetzen von Texten.

anon71114449 · 24. Juli 2024 um 09:09

Ich empfehle dir einmal, einen kostenlosen Account bei OpenAI anzulegen oder (wenngleich ich das Modell schwächer finde) bei Google Gemini.

Die Tatsache, dass man über Plugins ggf. auch Websuche mit den LLMs durchführen kann, täuscht über den Hauptnutzen hinweg. Als individueller User gibt es z.B. folgende Use Cases:

Brainstorming und Ideensammlung mit dem LLM
Textgenerierung anhand von Stichworten, Stilvorgaben etc, um diese dann weiterzuverarbeiten
Zusammenfassung von Textdokumenten, pdfs, auch Excel-Tabellen, um die Dokumente zu befragen; für wissenschaftliche Texte sehr nützlich
Textentwürfe, Präsentationsentwürfe
bei multimodalen Modellen: Bildgenerierung und bald Videogenerierung zugeschnitten auf deinen Textcontent (aktiv); Analyse von Bildern oder Videos inhaltlich und stilistisch (passiv)

Die Websuche mit Google ist hier analog zum Telefonieren mit dem Smartphone: geht auch, ist aber nicht die Hauptfunktion.

Beispielsweise nutze ich persönlich GPTs, wenn ich Konzepte einmal gegenprüfen will und Schwachstellen in meiner Argumentation aufdecken möchte. Ich teste Vereinfachung von Argumenten für höheres Management und mehr Details für Techniker. Manchmal haben mich die GPTs auf Ideen gebracht, meine Argumente so umzustrukturieren, dass die gefühlten Schwachstellen, auf die ich den Finger nicht legen konnte, sehr klar ausgedrückt wurden.
In anderen Fällen habe ich ein GPT als Coach genutzt vor einem wichtigen Gespräch, weil gerade keiner zur Hand war. Besser hätte auch ein menschlicher Coach es nicht machen können.

In den Business-Anwendungen:

Intent-Erkennung von eingehenden Emails, automatische Kategorisierung und Vorgabe von Antwortvorgaben; also eine Kombination aus GenAI und klassischen Workflows.
Eingangsrechnungen kategorisieren und Positionen Sachkonten zuweisen.
Vertragsdokumente kategorisieren und auswerten zur Befragung, z.B. Vergleich zwischen Service Level Agreements verschiedener Anbieter oder alles mögliche
Lebenslaufscans diskriminierungsfrei: ohne Name, Alter, Geschlecht, Staatsangehörigkeit Lebensläufe auf eine Stelle matchen und z.B. nach Qualifikationen, Erfahrungen und andere persönliche Muster dem Recruiter vorlegen; dadurch kommen KandidatInnen durch, die man vorher aussortiert hätte, weil der Bias der Person in diesem Schritt raus ist.

Also im Kern Tasks, die vorher ein Mensch beurteilt hat. Die Herausforderung ist hier AI-basiertes Business Process-Redesign: Wenn die LLMs kategoriesieren sollen, dann muss ich wissen, wie die Menschen z.B. eine Email kategorisieren oder einen Lebenslauf. Diese Kriterien sind NIRGENDWO dokumentiert in der Regel. Solche Kriterien waren bisher nie Teil von Prozessbeschreibungen.

Das macht die Projekte dieser Art so neu. Und das ist auch der Grund, warum die Implementierung in Unternehmen so lange dauert: Zum einen die neue Technologie und zum anderen das Business Process Reengineering und die Herausforderung, den Menschen „in die Köpfe zu schauen“.

Daran arbeiten mittlerweile viele. Aber in der Öffentlichkeit ist diese Mühe der Ebene und das Revolutionäre dahinter leider verborgen, indem man ChatGPT als „Suchmaschine“ verkauft hat, was es nie war.

Ich hoffe, ich konnte Argumente und Cases bringen?

anon71114449 · 24. Juli 2024 um 10:42

Für all das gibt es Lösungsansätze, die sind aber leider noch nicht für eine breite Anwenderschaft einfach verfügbar. Aber ich könnte ein paar Ansätze vorschlagen, die auch ein ambitionierter End User probieren könnte.

Um das zu erreichen, bräuchte man einerseits eine Scraper-Funktion (also Auslesen der Webseiten), das LLM und ein Tool, das jeweils die Schnittstellen anbindet. Wird sehr technisch, aber mit NoCode-Plattformen wie Make oder VisualMakers kann man sich dann authentifizieren, hoffentlich je nach Schnittstelle die Inhalte abholen und DANN diese Informationen per Schnittstelle an GPT übergeben.

Und das ist der Optimalfall. Kurz gesagt: Es gibt diese Lösungen, aber ja, das einfache Szenario ist leider noch nicht easy zur Verfügung, da hast du leider recht. Das ist noch sehr entwicklungslastig, aber dein Anwendungsfall ist in meinen Projekten schon in der Umsetzung. Leider noch nicht über das Web einfach möglich. Finde ich auch schade, aber es kommt.

Beide Szenarien brauchen verbesserte Indexierungsansätze als sie die bisherigen GPTs out of the box für die AnwenderInnen hergeben. Du kannst noch versuchen, mit Custom Prompts eigene GPTs auf die Sprache von betriebswirtschaftlichen Synonymen zu optimieren oder ein Synonymdokument mitzugeben, damit die Wortassoziationen hergestellt werden können.
Je nach Größe der Dokumente kann es aber auch sein, dass das Kontextfenster, also die Anzahl der Tokens, zu klein für die Dokumente ist. Dann müssten die Dokumente speziell vorverarbeitet werden (Chunking, RAG, Vorindexierung, parallele Indexierung Vorverarbeitung und Dokument gesamt…).

Die Konzepte existieren schon, aber werden gerade erst in verschiedenen Projekten erprobt und optimiert. Also auch das kommt, aber du hast 100% recht, mit jetzigen Möglichkeiten (Webinterface ChatGPT) kommst du als Nicht-Entwickler da noch an Grenzen. Das ist schade, aber die Arbeit daran läuft unter Hochdruck, weil deine Szenarien so viel interessante Möglichkeiten eröffnen. Wenn du Jahresabschlüsse und G&Vs analysieren kannst, könntest du automatisiert Investmentbewertungen geben und z.B. Investmentbanker ersetzen, die Portfolios bewerten…

Das stimmt, dafür gibt es jedoch schon Prompts mit denen du das einschränken kannst.

Hier gibt es eine Liste von Kursen zu allen möglichen Themen, vielleicht ist das ein guter Einstieg?

Jens2 · 24. Juli 2024 um 20:20

Na ja, selbstfahrende Autos wird man abseits von Prototypen erst dann wirklich nutzen können, wenn alles 100% perfekt läuft. 99% reicht nicht. Und auch Quantentechnologie ist ja noch im Prototypstadium.

Das ist beim Einsatz von GenAI ganz anders. Wir müssen nicht auf AGI warten, sondern können die Modelle bereits heute nutzbringend einsetzen. Und der Nutzen wird in den nächsten Jahren mit den Fähigkeiten der Modelle kontinuierlich steigen.

Ich denke auch die Größenordnung ist auf lange Sicht realistisch. Wie groß war der Wert der industriellen Revolution ? In diesem Zusammenhang mal ein deutsches Video, das die Situation in der wir uns befinden, ganz gut auf den Punkt bringt:

Siehe das Video oben, da werden auch Zahlen aus aktuellen Studien zitiert.

faust · 25. Juli 2024 um 06:28

Dein Video nennt einige Zahlen, aber leider gibt es keine Quellenangaben dafür.

Wenn man mal einer genannten Statistik folgt (der bei 3:22), stellt sich heraus dass die zugrunde liegende Studie noch kein Peer Review durchlaufen hat und nur eine spezifische Tätigkeit umfasste, dennoch wird das im Video auf alle Wissensarbeiter:innen verallgemeinert. Darauf basierend scheint mir das Video nicht sonderlich seriös zu sein.

Matder · 25. Juli 2024 um 07:15

Zufällig habe ich vor vielen Jahren mal als Hardware-Entwickler in einer sehr kleinen Firma gearbeitet und genau solche Anleitungen, wie du sie beschreibst, auf Deutsch und Englisch für kleine Automatisierungskomponenten (für die Hutschiene) auch selbst geschrieben.

Diese Arbeit war aber sehr überschaubar, da ich einfach eine existierende Anleitung für ein ähnliches Gerät genommen habe und lediglich die Bilder und Textteile getauscht habe, die sich geändert hatten.
Der wichtigste Teil der Arbeit war, dass die Zahlen (z.B. Spannungsfestigkeit) gestimmt haben, was keine KI überprüfen kann, weil sie die richtigen Zahlen nicht kennt, und das die Logos für die eingehaltenen Normen stimmten. Und so wird es in anderen Firmen auch sein.

Texte oder Textbausteine, die man schon mal selbst geschrieben, geprüft und veröffentlicht hat, zu recyclen, ist mMn viel produktiver, als sich etwas Neues von der KI generieren zu lassen, das man dann erst einmal aufwendig auf Fehler und Halluzinationen prüfen muss.

Deswegen bin ich auch immer so skeptisch, wenn aus irgendwelchen möglichen use cases immer gleich die großen Produktivitäts-Gewinne abgeleitet werden.

Ausnahmsweise habe ich mir das Video mal (halb) angesehen, ist ja zumindest ein Uni-Prof, der da redet (Link zur Uni-Seite). Leider finden sich da wenig belastbare Zahlen. Diese Daten, aus einer KPMG Studie (Link zu KPMG) vom März diesen Jahres, sind da schon das aussagekräftigste (bei 2:00 min) :

Wenn man in der Original-Studie mal nachschaut, welche KI-Tools gemeint sind, dann wird da lediglich vom MS Copilot gesprochen. Das überzeugt mich eher wenig. Vielleicht geben die Manager das auch nur an, weil sie den MS Copilot ja monatlich bezahlen und sie diese Kosten irgendwie rechtfertigen müssen.

Diese zweite Grafik (bei 3:17 min), die eine Studie zitieren soll, finde ich noch weniger aussagekräftig und die Kategorien „mehr Aufgaben erledigen“ und „schneller arbeiten“ sind mMn synonym und müssten daher gleiche Werte enthalten:
ki_wiss_arbeit

Und in der dritten Grafik (bei 4:06 min), die eine Studie zitiert, wird im Bild nur noch von Potentialen gesprochen, auch wenn Herr Prof. Ahlemann das in seinen Video-Ausführungen unter den Tisch fallen lässt und eher so tut, als wäre das alles schon heute Realität:

Potentiale

Im restlichen Video geht es dann nur noch um einen historischen Rückblick. Und insgesamt ist die Faktenlage was die heutigen Produktivitätsgewinne angeht sehr dünn. Mich hat es nicht überzeugt.

edit:

Hast du da mal einen Link zu der Studie?

pbf85 · 25. Juli 2024 um 07:29

Und genau dieses recyceln führt häufig zu unlesbaren Texten. Weil plötzlich ein Halbsatz in der Luft hängt, einem anderen Satz die Referenz fehlt etc.

Und hier hilft KI durchaus. Man hat einen Abschnitt und lässt den ändern und prüft den dann nochmal.

Fügt man einen Abschnitt einer italienischen Komponente mit grauenhaften Übersetzungen in der originalen Betriebsanleitung hinzu, dann kann man sich das original übersetzen lassen statt die schlechte Übersetzung als Grundlage zu nehmen etc.

In meinem Fall hat das die Qualität meiner Arbeit deutlich verbessert und das bei tendenziell sinkendem Aufwand. Und dabei schreibe ich die generierten Texte sogar nochmal etwas um.

faust · 25. Juli 2024 um 07:46

Ja, hier:

(Alles, was es braucht, um sie zu finden: Ein Kommentar unter dem YouTube-Video, der zu einem FAZ-Artikel führt, der den Blogeintrag eines Studienautors verlinkt, auf dem schließlich auf die Studie verwiesen wird )

Jens2 · 25. Juli 2024 um 08:45

Na ja, dann müsste man ja auch die FAZ als unseriös bezeichnen, weil sie es wagt, sich auf eine nicht-peer-reviewte Studie zu beziehen. Die Studie kommt von Mitarbeitern der relativ renoommierten Havard Business School und ist eigentlich jetzt schon nicht mehr ganz taufrisch, weil die Daten aus dem Frühjahr 2023 stammen, als GPT-4 noch nicht lange veröffentlicht war. Man wird aufgrund der schnellen Entwicklung zu dem Thema kaum Studien finden, die gleichzeitig peer-reviewt UND einigermaßen aktuell sind (man erinnere sich an die Preprint-Papiere während der Corona-Pandemie). In den von Matder aus dem Video zitierten Balkengrafiken wird doch in Bezug auf Einsatz und Produktivitätspotentiale auch ganz klar nach Branchen aufgeschlüsselt.

faust · 25. Juli 2024 um 09:27

Das ist wohl wahr, aber von einem Prof kann man schon sauberere Quellenarbeit verlangen, wenn der ein YouTube-Video veröffentlicht, finde ich. Zumindest sollten die Unzulänglichkeiten erwähnt werden und direkt die Paper verlinkt, auf die sich bezogen wird.

Allerdings. Dafür gibt es dann aber aber gar keine wissenschaftliche Quelle mehr, das ist nur Werbematerial des Consulting-Unternehmens Strategy&.

anon34254595 · 25. Juli 2024 um 13:53

Was bedeutet „wirklich schlau“?

Lassen wir mal Sonderfragen wie die, ob Intelligenz/Klugheit Bewusstsein in einem spezifischen Sinne braucht (Searles Chinesisches Zimmer und angelagerte Diskussionen) oder irgendeine Art Embodiment, weg.

Dann kann man auf den Turing-Test und nachfolgende Varianten zurückgreifen.

Wenn man solche Maßstäbe anlegt, ist durchaus nicht mehr sicher, dass aktuelle AI ihnen nicht gerecht wird.

Und wer könnte schon behaupten, dass menschliche Gehirne Information gänzlich anders prozessieren.

Daher wäre ich mit dem Urteil, dass AI nicht schlau sei, vorsichtig.

Matder · 25. Juli 2024 um 19:37

Stimmt, aber da so eine Anleitung eh nochmal von einem Fachkollegen, wegen der Zahlenangaben, gegengelesen werden muss, fliegen solle Satzfragmente eigentlich immer schnell auf.
Deswegen sind ja fertige, veröffentliche Texte bzw. Textbausteine mMn so wertvoll. Weil da eben schon mal mehrere Leute drüber geguckt haben.

Aus ökonomischer Sicht würde ich sagen, wenn man sich immer alles neu von einer KI generieren lässt, wirft man als Firma damit irgendwo auch immer eigene Arbeitsleistung weg, die die eigenen Mitarbeiter schon mal (gegen Lohn) erbracht haben.

Danke für den Aufwand.
Besonders schön an dem Abstract, den du da zu Tage gefördert hast, ist die Tatsache, das es sich bei den Wissensarbeitern um Angestellte von Boston Consulting handelt.
Also Mitarbeiter einer Firma, die, als dieses Paper geschrieben wurde, ziemlich sicher schon alle möglichen Klienten (gegen Bezahlung) zu KI beraten hat. Ich würde sagen, unabhängige „Testobjekte“ sehen anders aus.

Ich hab grundsätzlich nichts gegen diese philosopgische Debatte, aber vielleicht sollten wir die in einem extra Thread führen, weil diese Diskussion im letzten Jahr ziemlich umfangreich wurde, wenn ich mich richtig erinnere.

Vielleicht kann @TilRq deinen Post dafür als Anfang nehmen.