Demokratische Kontrolle von KI

KI ist ja ein Hypethema und es bleibt abzuwarten, wie groß die Blase noch wird und ob und wann sie platzt. Aber es gibt doch jetzt schon so einige Auswirkungen, die darauf hindeuten, dass KI in unserem Alltag eine wachsende Rolle spielen wird. Die marktbeherrschenden KI-Systeme funktionieren dabei nach intransparenten Algorithmen, die nicht open source sind und der Kontrolle weniger profitorientierter Akteure unterliegen. Wie könnte eine demokratische Kontrolle dieser Algorithmen aussehen? Und wie wirksam sind die bestehenden Transparenzanforderungen auf EU-Ebene?

Ich fürchte, die Algorithmen allein nutzen nichts. Damit lassen sich kaum Vorhersagen treffen. Auch gibt es einige quelloffene KIs, deren Algorithmus jeder problemlos einsehen kann. Was die Betreiber dieser KIs aber für gewöhnlich als Betriebsgeheimnis handhaben, sind die Trainingsdaten. Die bräuchtest Du also auch. Und Du müsstest wissen, wie die KI mit den Daten gefüttert wurde, um die daraus resultierenden Gewichtungen reproduzieren zu können, die maßgeblich für den Output sind. Erfahrungsgemäß fällt es den Betreibern von KIs in der Regel selbst sehr schwer nachzuvollziehen, warum ihre KI in einer konkreten Situation genau die Antwort gegeben hat, die sie gegeben hat. KIs sind notorisch schwer debugbar.

Aber die Diskussionen hatten wir schon mal.

2 „Gefällt mir“

KI ist in dieser Hinsicht wirklich anders als „normale“ Software. Selbst open-source und open-weights Modelle bringen dir ohne die zugrundeliegenden Daten kaum etwas, wenn wirklich alles komplett nachvollzogen werden soll.

Darüber hinaus sind das Nachvollziehen des Trainingsprozesses im Nachhinein und insbesondere Aspekte wie Verifizierbarkeit, Reproduzierbarkeit und Erklärbarkeit von KI überwiegend noch offene Probleme - es gibt schon viele gute Ansätze, aber so richtig stichfest sind die mitunter nicht.

Zum Beispiel ist das nachträgliche Beweisen, ob ein Modell, das bestimmte Gewichte hat und einen bestimmten Output liefert, wirklich mit den genannten Daten auf die genannte Art trainiert wurde um zu diesen Gewichten zu kommen, noch eine wissenschaftlich aktiv diskutierte Frage. Die Forschung ist da momentan noch stark im Wandel.

Die Frage ist also wirklich, wie Transparenz und demokratische Kontrolle hier aussehen sollen. Die aktuellen KI-Architekturen sind quasi als Nebeneffekt des fundamentalen Designs nicht wirklich nachvollziehbar. Dazu kommen dann noch die Unterschiede zwischen generativer KI wie LLMs und sowas wie Empfehlungsalgorithmen in Social Media. Das sind komplett verschiedene Dinge, auch wenn beides „KI“ ist.

Was soll denn zum Beispiel bei den bekannten LLMs (zB ChatGPT, Gemini, etc) überhaupt nachvollzogen werden, um mehr demokratische Kontrolle zu etablieren? Also was fehlt dir @Fischkopp85 da momentan und welche Art von Transparenz würdest du dir wünschen?

3 „Gefällt mir“

Wir haben mit Claude Code in 6 Wochen eine interne Software entwickelt, für die wir - laut Entwicklern - circa 6-12 Monate gebraucht hätten. Der Code wurde bereits refactored und reviewed und läuft stabil.

Unsere Stellenanzeigen für Junior-Entwickler haben wir erstmal zurückgezogen. Anstatt 80.000 Euro inklusive sozialkosten haben wir ein paar LLM-Abos und erzeugen den 10-fachen Output.

3 „Gefällt mir“

Generative KI ist weder der einzige noch der wichtigste Anwendungsfall für KI.

Das ist natürlich Marketing-Gelaber, aber autonomes Fahren ist doch gerade ein Paradebeispiel für KI, auch ohne LLMs. Das funktioniert ja auch schon relativ gut, siehe zB Weymo oder perspektivisch auch bei Mercedes

Du kannst davon ausgehen, dass alle großen LLMs mit wahrscheinlich allen digital existierenden Büchern der Welt trainiert wurden. Siehe zB hier bei Anthropic/Claude:

Anthropic’s use of books to train its artificial intelligence model Claude was “fair use” and “exceedingly transformative,” a federal judge ruled. Amazon-backed Anthropic’s AI training did not violate the authors’ copyrights […] Part of the lawsuit centers around a set of roughly 7 million books that Anthropic pirated and retained as part of a “central library.” The startup ultimately decided against using these pirated materials for training its LLMs.

Oder Meta:

US District Judge Chhabria said that it “is generally illegal to copy protected works without permission,” but in this case, the plaintiffs failed to present a compelling argument that Meta’s use of books to train Llama caused “market harm.” […] “The court ruled that AI companies that ‘feed copyright-protected works into their models without getting permission from the copyright holders or paying for them’ are generally violating the law,” the statement said. “Yet, despite the undisputed record of Meta’s historically unprecedented pirating of copyrighted works, the court ruled in Meta’s favor.”

Ähnlich verhält es sich mit Musik und Musik-KIs oder Bildern und Bilder-KIs. Die haben alle massenweise urheberrechtlich geschütztes Material verwendet.

Das ist tatsächlich ein Problem. Nachdem bis vor 1-2 Jahren Informatiker an allen Ecken und Enden gesucht wurden, sind Stellen für Junior-Entwickler mittlerweile deutlich seltener geworden… Das ist natürlich jammern auf hohem Niveau, aber trotzdem :sweat_smile:

Naja, der Code muss am Ende auch geprüft und gewartet werden. Ich bin skeptisch, ob da bei 10fachem Output nicht der Überblick verloren geht und einem das irgendwann auf die Füße fällt…

2 „Gefällt mir“

Schön, wenn es in dem Fall so gut geklappt hat. Das ist aber nicht die Regel.

Angestellte nutzen mit KI gesparte Zeit, um KI-Ergebnisse zu korrigieren | heise online

Auch behaupte ich, dass KI sich in einem wesentlich wohlwollenderem Umfeld wiederfindet. Wenn die KI etwas auswerten soll, wird das auch so aufbereitet, dass sie damit arbeiten kann, sonst tut sie nämlich nichts. Wenn ich etwas auswerten soll und sage „unsere Software stellt mir die Daten gar nicht oder nur mit viel Aufwand zur Verfügung“ dann heißt es meist „Dir wird schon was einfallen“ oder „frag mal rum, ob es nicht doch geht“.

Das muss der Code von allen Entwicklern. Aber die Coding Agents haben in den letzten 6 Monaten so einen Sprung gemacht, dass die Qualität des Codes auf dem Niveau eines Entwicklers liegt. Selbst Ikonen der Industrie, z.B. Ryan Dahl (Erfinder NodeJS), sagt dass die Zeiten menschlichen Codens gezählt ist.

Keine Frage, es gibt AI Slop und niemand weiß, wie sich die Anbieter in Zukunft finanzieren wollen. Aber was insbesondere im Bereich der Software-Entwicklung abläuft ist eine Revolution.

2 „Gefällt mir“

Ich finde, der Diskurs hat sich hier sehr schnell auf rein technologische Aspekte verengt. Warum ich das Thema ursprünglich eingebracht habe, ist die Furcht vor dem antidemokratischen Potenzial von KI. Da Bots wie Gemini darauf getrimmt sind, dem Nutzer helfen zu wollen, kann dieser leicht in antidemokratische oder menschenrechtswidrige Diskurse oder sogar konkrete Maßnahmenplanung verwickelt werden. Da sie eine Tendenz zur positiven Affirmation von Nutzern haben, verstärken sie tendenziell den ideologischen Tunnelblick, insbesondere wenn dieser einen an den Filtern für extremistisches Vokabular vorbeigehenden Sprachstil benutzt. Ab einem bestimmten Punkt müsste der Chatbot eine Konversation abbrechen, wenn sie Menschenrechte oder Völkerrecht in Frage stellt. Diese Mechanismen gibt es bisher nicht und die Entwicklerteams sind bisher zu IT-lastig, um geschickt geführte Diskurse problematischer Natur überhaupt zu identifizieren, weil ihnen die sozialwissenschaftliche Expertise dafür fehlt. Außerdem reproduziert KI bis zu einem gewissen Grad ja ohnehin quantitativ starke Diskurse und stärkt damit gesamtgesellschaftliche Radikalisierungstendenzen. Dass die Gesellschaft bei der Festlegung der ethischen Grenzen von KI bisher keinerlei Mitsprachrecht hat, sondern KI-Tools von Tech-Oligarchen entwickelt werden, die Nutzer möglichst lange zeitlich binden wollen und ihnen tendenziell nach dem Mund reden und dabei auch noch Suchtpotenzial erzeugen, macht dieses Demokratiedefizit in der KI-Entwicklung so gefährlich. Am Ende kommen dann als Extrembeispiel KI-Anwendungen wie Grok heraus, die nun wirklich ein Paradebeispiel für eine KI-Anwendung ohne jegliche Sicherheitsstandards ist und der Alptraum jedes Demokraten sein müssten.

Das lag auch etwas daran, wie Du die Eingangsthese formuliert hattest. Die Algorithmen sind bei KI der falsche Hebel zur Lösung des Problems. Technisch wird man das über Nachtraining und Filtern des Outputs lösen. Rechtlich könnte man sich da eigentlich einen schlanken Fuß machen: KIs werden von irgendwem - meist einer Firma, Stiftung oder ähnlichem - erstellt und betrieben. Die sind in der Haftung. Fehlerhafte Ausgaben der KI sind ein Mangel und abzustellen, rechtswidrige Ausgaben sind den Betreibern zuzurechnen und entsprechend zu bestrafen.

1 „Gefällt mir“

Der Algorithmus müsste genauso offengelegt werden wie Trainingsdaten, wenn man hier wirklich konsequent sein wollte, auch wenn das so nie durchkommt. Nur so könnte man die inhärenten Biases offenlegen und auf sie Einfluss nehmen. Am besten wäre natürlich eine öffentlich finanzierte Open-Source-KI. Dann könnte man sich als Gesellschaft über Dinge wie Sicherheitsstandards auch austauschen und diese gemeinsam festlegen. Das ist die eine Seite. Genauso wichtig finde ich aber auch, dass wir alle über die Nutzung von KI mehr lernen. Es sollte Standard sein, eine kritische Distanz zu KI-erzeugten Informationen zu behalten und sich bewusst zu sein, dass sich das Antwortverhalten eben immer an dem Nutzerprofil ausrichtet und diesen tendenziell in dessen von der KI vermuteten Erwartungen bestätigt und auch zu wissen, wie man es vermeidet, zu viele oder zu sensible Daten preiszugeben. Gemini gibt z.B. völlig unterschiedliche Antworten auf die gleiche Frage, je nachdem, ob ich einen sachlich-rationalen oder affirmierenden Ton einfordere. Auch über Suchtpotenzial müsste mehr aufgeklärt werden in einer Zeit, in der Chatbots heute schon Therapeuten ersetzen.

Die Diskussion dreht sich im Kreis:

Wenn es dir wirklich um das Einhegen und Anpassen des Outputs an gesellschaftlich definierte Normen geht, dann ist wie gesagt das Fine-Tuning, Filtern und sowas wie wie Anpassungen im System-Prompt die richtige Anlaufstelle, siehe auch die letzte Antwort von @Norbert .

Was soll das denn sein? Es gibt nicht die KI. Meinst du einen Chatbot, also ein LLM? Was genau würde der besser machen als existierende open-weight LLMs, die man ja auch mit u.a. den oben genannten Stellschrauben auf die eigenen Prioritäten anpassen kann?

2 „Gefällt mir“

Der Algorithmus müsste genauso offengelegt werden

Tatsächlich sind die Algorithmen, um LLMs zu trainieren, absolut kein Geheimnis. Die Grundlagen sind alle als Paper veröffentlicht. Ein jeder kann sich theoretisch das Wissen dazu anlesen; in den Unis gibt es Vorlesungen, in denen die Algorithmen behandelt werden. Manch einer mag sich vielleicht noch an den “DeepSeek“-Schock vor ziemlich genau einem Jahr erinnern, als chinesische Entwickler ein kompetitives LLM mit deutlich weniger Ressourcen trainiert haben. Aber auch hier wurde der Trainingsprozess (“der Algorithmus“) in Form einer Papers transparent veröffentlicht.

Ich will nicht ausschließen, dass beim Training von kommerziellen LLMs sicherlich der ein oder andere Trick verwendet wird, der nicht dem klassischen Textbuch entspricht. Das sind aber vermutlich nur Optimierungen und ändern nichts Grundlegendes am Training.

1 „Gefällt mir“

Die demokratisch am besten zu kontrollierende, transparenteste Variante wäre meiner Meinung nach tatsächlich eine nichtkommerzielle, da öffentlich finanzierte KI, sagen wir ein LLM, das nicht nur Open weight ist, sondern tatsächlich open source, also mit offenem Code und offenen Trainingsdaten.

Es wäre denkbar ein LLM OpenSource zu betreiben. Jeder könnte für den Betrieb spenden und Staaten das bezuschussen. Eine vertrauensvolle Foundation (Wikipedia? Mozilla? Amnesty International, kurzAI?) würde über den Algorithmus und die Trainingsdaten wachen und die Server betreiben. OpenSource-Code gibt es ja bereits.
Die Frage ist ja tatsächlich, was wir bei den Tech-Konzernen langfristig geliefert bekommen.
Gerade wenn die Agenten kommen ist es wohl nicht unrealistisch zu denken, dass die uns nicht die Ergebnisse der Abfrage präsentieren, sondern auf dem Weg dahin Filter durchlaufen, um Werbeeinnahmen zu generieren. Das ist aber dann für niemanden mehr ersichtlich.

Und dann wird ganz demokratisch mit Mehrheit von CDU und AFD festgelegt, dass das Wort „Veggiewurst“ aus dem demokratischen LLM gefiltert wird.

2 „Gefällt mir“

Du unterscheidest aber nicht, ob man mit der Bereitstellung von LLMs Geld verdienen kann, oder ob man mit der Nutzung von LLMs Geld verdienen kann.

1 „Gefällt mir“

Seht es mir nach, wenn ich bei den technischen Regulierungsmechanismen nicht richtig mitreden kann und auch bei Kernkonzepten der KI-Entwicklung noch schwimme. Ich bin nur ausgebildete Politologin und arbeite mit 30 Stunden in der Pflege, insofern hatte ich bisher weder die Zeit noch das nötige technische Know-How, um an dieser Debatte auf Augenhöhe zu partizipieren. Ich habe lediglich das Wissen, das ein regelmäßiger Nutzer des öffentlichen Rundfunks und des gängigen bürgerlichen Pressespiegels inklusive Tagesspiegel eben so hat. Es geht nicht tiefer als bis Le Monde Diplomatique.

Von diesem Ausgangspunkt aus habe ich Chats mit Gemini über die Funktionsweise von KI, deren demokratiegefährdendes Potenzial und Regulierungsansätze geführt, die mir als Quelle dienen. Dabei habe ich auch versucht, Erkenntnisse über die Funktionsweise des Algorithmus und der Datenverarbeitung zu gewinnen, so gut das eben möglich ist mit dem Wissen, dass mich Gemini immer nur spiegelt. Das ist also meine Quelle für die regulatorischen Ideen, die ich hier einbringe. Wenn man so will, ist es also ein Experiment, bei dem ich die von Gemini aufgeführten Ideen im Diskurs teste. Inhaltlich stehe ich selbst allerdings auch hinter diesen Ideen.

Warum ich das mache, ist, weil ich jetzt schon sehe, wie weit verbreitet LLMs für die Generierung von Informationen wie Texten sind und das absehbar Auswirkungen auf Diskurse haben wird, da diese Informationen ja auch wieder in den Datenbestand eingehen werden, aus denen LLMs ihre Informationen für die Interaktion mit Nutzern ziehen. Als kommerzielle Instrumente wollen sie Nutzer möglichst bestätigen und lange zeitlich binden. Das könnte und wird auch heute schon ein Einfallstor für politische Radikalisierungsprozesse sein. Noch sind sie aber nicht die Echokammern wie Social Media, bei denen m.E. alles zu spät ist und nur noch die Scherben aufgekehrt werden können. Das kann noch verhindert werden.

Und dann gibt es eben noch den Aspekt, dass die EU komplett von US-Konzernen abhängig ist. Das sind für mich die politisch relevanten Aspekte, die jetzt schon für mich sichtbar sind.

Daher finde ich, wir haben auf drei Ebenen Handlungsbedarf.

1. Regulierung der bestehenden Tech-Konzerne auf europäischer Ebene durch Herstellung von Transparenz und Verpflichtung zu Guardrails: da geht der EU AI Act schon in die richtige Richtung, das Ziel muss sein, die Tech-Konzerne aus der Black Box rauszuholen; gewissermaßen versuche ich das als Gemini-Nutzerin gerade (bleibe aber eben immer innerhalb des von Gemini vorgegebenen Rahmens und habe als Bürgerin nicht die Regulationsmacht einer politischen Institution, sondern kann nur versuchen, Transparenz herzustellen, woran ich zwangsläufig scheitern muss)

2. europäische digitale Souveränität als Gegengewicht zu den US-Konzernen: das könnte im Idealfall ein Open-Source-LLM (oder mindestens Open-Weight als Schutz vor Hackern) sein mit öffentlich finanzierten Entwicklern, Servern und der Netzinfrastruktur sowie einem Zivilgesellschaftlichen Kontrollgremium mit regelmäßig rotierenden, gewählten Mitgliedern. So utopisch das klingt, ist es doch nicht viel was anderes als unser öffentlich rechtlicher Rundfunk, nur eben im Idealfall auf europäischer Ebene. Die politisch problematischen Mehrheiten haben wir so oder so und müssen uns gesamtgesellschaftlich auf allen Ebenen, also auch dieser, dagegen wehren, weiter nach rechts zu rücken. Diese Aufgabe bleibt so oder so.

3. KI-Literacy als Bildungsaufgabe am besten schon ab der Grundschule: Themen wie die richtige Bedienung (z.B. Wie sieht ein guter Prompt aus?), das Überprüfen von Antworten sowie das Einordnen von Quellen oder Datenschutz sollten darin vorkommen.

In einer Utopie würde ich mir vorstellen, dass man bei der Nutzung von LLMs die gleiche Freiheit der Auswahl hat wie bei anderen Medien auch, und sich entscheiden kann zwischen öffentlich und privat. Und selbst die Privaten dürften eben nicht komplett profitgetrieben sein, sondern müssten wirksame Guardrails haben, wie sie ja auch heute schon teilweise bestehen. Ein Beispiel ist, dass die gängigen generativen LLMs meines Wissens nicht von sich aus prompten und damit keinen Chat initiieren können. Das ist der wichtigste Schutzmechanismus gegen Sucht, schmälert an der Stelle den Profit, aber muss unbedingt erhalten bleiben, damit generative LLMs nicht so enden wie Social Media.

Was meint ihr zu meinen Vorschlägen? Was fehlt, was haltet ihr für umsetzbar und was nicht und wie könnten diese Vorschläge umgesetzt werden?

Nein, aktuell könnte er das nicht, weil User insbesondere aufgrund der andauernden Verbesserungen der Modelle von einem zum anderen Anbieter wild wechseln und weiterhin (teure) Kapazität aufgebaut wird. Aktuell geht es um möglichst viel Exposure, bei dem sich die besten Anbieter langfristig durchsetzen werden.

Das heißt absolut nicht, dass dauerhaft kein Geld zu verdienen ist. Es ist ähnlich wie bei Social Media, am Ende gibt es wenige große Gewinner (neben erfolgreichen Nischenanbietern).

Du verdrehst den Begriff der Investition. Du investierst in Erwartung zukünftiger Gewinne. Das gilt nicht nur für AI Unternehmen.

Ob sich die Gewinne einstellen werden wird sich herausstellen. Ich halte die These, dass sich die Gewinne eher bei den Nutzern des Werkzeugs einstellen werden, für plausibler.

3. KI-Literacy als Bildungsaufgabe am besten schon ab der Grundschule: Themen wie die richtige Bedienung (z.B. Wie sieht ein guter Prompt aus?), das Überprüfen von Antworten sowie das Einordnen von Quellen oder Datenschutz sollten darin vorkommen.

Bei dem Punkt finde ich es immer wieder schade, dass man darunter vor allem so “weiche“ Skills meint. Ich würde mir wünschen, dass man auch auf die Funktionsweise dieser Modelle eingeht. Das ist vor allem Dingen viel Mathematik. Zum einen kann ich mir natürlich vorstellen, dass das nicht auf viel Liebe stoßen wird. Andererseits lese ich immer wieder teilweise wirklich abstruse Vorstellungen davon, wie KI funktioniert, dass ich mir da echt mehr Grundlagenbildung wünsche.

2 „Gefällt mir“