DeepSeek - Korrekturen

BBormann · 31. Januar 2025 um 16:37

Hi,

es ist immer ein schwieriger Moment, wenn ein Medium, das man bis anhin sehr gut findet, dann ausgerechnet bei einem Thema, von dem ich Ahnung (zumindest ein bisschen) habe, gewisse Lücken offenbart.
Und zwar zwei ganz konkrete Aspekte zur sog. „KI“ (es ist ein Large Language Model, nicht AI, aber den Kampf gegen diese sprachliche Ungenauigkeit habe ich wohl verloren) von DeepSeek:

DeepSeek sagt selbst, dass es auf den Modellen anderer aufbaut (zB. Llama-Modelle aus dem Hause Meta), und OpenAI hat angeblich auch Beweise für eine illegitime Nutzung ihrer GPT-Modelle (s. zb. hier: Subscribe to read).
Aber unabhängig davon, ob ich Sam Altman glaube oder nicht, die Argumentation, dass es auf einmal alles mit viel weniger GPUs geht, stimmt dementsprechend nicht - wenn DeepSeek bei 0 hätte anfangen müssen, um ein vergleichbar gutes Modell zu produzieren, würden sie wohl auch viel mehr GPUs brauchen.
DeepSeek ist NICHT open source (Llama übrigens auch nicht), wie zB. Timnit Gebru (ex Google AI) hier erläutert: @timnitgebru.bsky.social on Bluesky
DeepSeek stellt das fertig trainierte Modell zur Verfügung, so dass Nutzer damit selber weiter arbeiten können. Das ist schon besser als Anthropic oder OpenAI, aber damit ein LLM wirklich open source wäre, müssten sie die Trainingsdaten bereitstellen (s. oben, könnte unangenehme Fragen auslösen), den Code für das Modell (nutzlos ohne Trainingsdaten) und die Architektur und die Gewichtung der Features. Daten und Modellquellcode wird auch von DeepSeek nicht bereit gestellt.

Wäre cool, wenn ihr das beim nächsten Mal auch so berichten würdet.

pianokruemel · 1. Februar 2025 um 13:38

Hallo,
das habe ich mir auch gedacht beim Zuhören und möchte auch gerne noch etwas zu Punkt 2 ergänzen:

Deepseek ist nicht OpenSource, aber man kann es lokal auf der eigenen Hardware ausführen und das ist für mich ein sehr bedeutender Punkt.
Wenn ich mit sensiblen Daten oder mit Code arbeite, mit dem ich nicht einfach im Browser Chatgpt oder Deepseek über deren WebUI fragen kann, darf oder möchte (Datenschutz), kann ich mir das Modell (wenn auch eine kleinere Version) herunterladen und auf meinem Rechner ausführen, ohne dass meine Anfragen an die großen Unternehmen hinter den Modellen gehen.
Ich empfinde das als sehr wichtigen Faktor bei LLMs aus reiner Datensicherheitsperspektive.
Dieser Punkt wurde im Podcast aber leider nicht erwähnt.

Wie gesagt, braucht man natürlich entsprechende Hardware um so ein Modell lokal auszuführen, aber zumindest mit einer guten Gaming-Grafikkarte oder mit einem Mac, der dank des unified memory den normalen Arbeitsspeicher als Grafikspeicher nutzen kann, kann man etwas kleinere Modelle, die trotzdem sehr gut sind lokal nutzen.
Ich unterstütze die Punkte von BBorman, möchte nochmal besonderen Fokus auf den vorteil von lokaler KI lenken und würde mich auch freuen, wenn das beim nächsten Mal noch ergänzt wird.

Slash · 1. Februar 2025 um 13:44

Und zwar zwei ganz konkrete Aspekte zur sog. „KI“ (es ist ein Large Language Model, nicht AI, aber den Kampf gegen diese sprachliche Ungenauigkeit habe ich wohl verloren)

AI ist ein Oberbegriff in der Forschung. Machine Learning ist ein Teilgebiet von AI, LLMs sind Teilgebiete von Machine Learning und somit von AI. Daher ist die Bezeichnung AI bzw. KI nicht falsch. („Jedes Machine-Learning-Modell ist AI, aber nicht jede AI ist ein Machine-Learning-Modell.“)

Aber unabhängig davon, ob ich Sam Altman glaube oder nicht, die Argumentation, dass es auf einmal alles mit viel weniger GPUs geht, stimmt dementsprechend nicht - wenn DeepSeek bei 0 hätte anfangen müssen, um ein vergleichbar gutes Modell zu produzieren, würden sie wohl auch viel mehr GPUs brauchen.

Aber dabei verkennst du ja den technischen Fortschritt. Klar, hätte man von 0 anfangen müssen, dann mag das ja stimmen. Aber DeepSeek hat ja eben neue Methoden verwendet, um nicht bei 0 anfangen zu müssen. Das ist doch der entscheidende Punkt. (Davon abgesehen, dass DeepSeek ja auch mit MoE eine bessere Performance bei der Ausführung erreicht.)

BBormann · 1. Februar 2025 um 14:17

Ergänzung (unabhängig von allen Überlegungen, ob man sich ein chinesisches Modell holen möchte, wenn die Hardware nicht komplett isoliert ist…) - ich bin kein CyberSecurity Experte, aber ich halte diesen Hinweis zur mangelnden Sicherheit auch noch relevant: Wiz Research Uncovers Exposed DeepSeek Database Leaking Sensitive Information, Including Chat History | Wiz Blog

@Slash: Ich würde mir einfach mehr sprachliche Präzision wünschen, weil ein LLM eben nicht „Künstliche Intelligenz“ ist, wie der durchschnittliche Nicht-Experte den Begriff versteht. Aber wie gesagt, den Kampf hab ich eh schon verloren (aber mal ehrlich, mein XGBoost, das mir eine Wahrscheinlichkeit ausspuckt, ob ich ein Buch zu Ende lesen werde oder nicht, ist keine Artificial Intelligence. It’s just Machine Learning.)
Zum zweiten Punkt: Ich beziehe mich v.a. auf die Reaktion der Märkte, aber habe das natürlich so im ersten Post nicht klar formuliert. Sorry dafür. Und auch wenn ich viel Freude daran habe, die „AI“-Hype-Bubble platzen zu sehen, DeepSeek R1 wird real nicht dazu führen, dass wir weniger GPUs von nvidia brauchen. (Disclaimer: long Mag7, weil ich in MSCI World Funds investiert habe.)

utzaki · 1. Februar 2025 um 14:17

Ich habe mich als regelmäßiger Hörer des Podcasts endlich mal auch hier angemeldet, weil ich diese sprachliche „Ungenauigkeit“ eben nicht verloren geben möchte. Alles, was in der Sendung zu „KI“ gesagt wurde, gilt nur für den Teilaspekt der sogenannten Generativen KI und davon auch nur für den Teilbereich der „Large Language Models“, wie er im Moment mit ChatGPT, Deepseek, Gemini usw. stark in der öffentlichen Diskussion ist. Es ist nicht nur ungenau, sondern auch irreführend, diese sehr spezielle Technologie als repräsentativ für das gesamte Feld der Künstlichen Intelligenz zu diskutieren.

Slash · 1. Februar 2025 um 14:34

ist keine Artificial Intelligence. It’s just Machine Learning.

Wie gesagt, Machine Learning ist AI. (Dass der Otto Normalverbraucher eine völlig falsche Vorstellung davon hat, was - aktuelle - KI ist, da gehe ich absolut mit. Ich habe wirklich das Gefühl, dass ChatGPT mehr dem allgemeinen Verständnis davon, was KI ist, mehr geschadet als genutzt hat. Nichtsdestotrotz ist es faktisch nicht richtig zu sagen, Machine Learning wäre keine AI.)

Und auch wenn ich viel Freude daran habe, die „AI“-Hype-Bubble platzen zu sehen, DeepSeek R1 wird real nicht dazu führen, dass wir weniger GPUs von nvidia brauchen.

Sehe ich ähnlich. (Auf den Dip habe ich mir erst einmal ein paar Nvidia-Aktien gegönnt. :D) Nichtsdestotrotz muss man anerkennen, dass DeepSeek viele technische Innovationen hat. Und wenn die dazu führen, dass LLMs in Zukunft effizienter sind - cool!

Mike · 1. Februar 2025 um 18:43

Olaf.K · 1. Februar 2025 um 20:50

Also Korrekturwünsche in Nerdsprache bringen nicht wirklich viel.
Das ganze gemixt mit AKüFi und Otto Normal (wie ich) sind komplett raus.

Mit anderen Worten: das was ihr wünscht bedarf einer ausführlicheren Erklärung, keine Ahnung ob die Hosts dafür die Zeit aufbringen wollen das zu erklären, aber ohne Erklärung wird es eine Korrektur nur für die IT Nerds im Publikum eines Politik PodCasts.

kue · 2. Februar 2025 um 18:50

Noch ein paar Anmerkungen zu DeepSeek, weil ich hier einige Punkte doch etwas verwirrend bzw teils falsch finde:

DeepSeek hat mehrere Sprachmodelle, von denen manche über ihre API verfügbar sind. Die Nutzung über die API funktioniert dann genauso über monatliche Beiträge wie bei OpenAI, Google und den ganzen anderen kommerziellen Anbietern (nur billiger). Manche Modelle im normalen interaktiven Chat sind analog wie bei den anderen auch über die API for free.

Ihr zweiter Ansatz ist allerdings alle Modelle OpenSource zur Verfügung zu stellen. Man kann sie sich einfach über HuggingFace oder Ollama downloaden und lokal nutzen bzw weiterentwickeln, wenn man genügend Power hat. Code und Gewichte sind einsehbar. Das ist alles nichts neues, das macht Mistral, Meta und viele anderen schon lange so.

Zum Punkt, sie hätten Basismodelle von Meta usw genutzt: Das eigentliche neue Hauptmodell R1 wurde from scratch trainiert. Um kleinere Modelle mit ähnlichem Verhalten und Performance zu bekommen, die damit z.B. auch lokal auf einem normalen Rechner laufen, kann man eine Technik namens Model-Distillation nutzen. Dafür werden kleine vortrainierte Sprachmodelle durch ein großes Modell trainiert (Student-Teacher). Dadurch kann man Techniken und Wissen des größeren Modells auf kleinere Modelle übertragen. Hierfür hat DeepSeek Modelle von Meta (Llama) und Alibaba (Qwen) genutzt. Diese Technik gab es auch schon davor. Die Modelle, die dabei rausgekommen sind, sind für die Parameterzahl allerdings ziemlich gut.

Das wirklich neue bei ihrem neuen Modell R1 ist, eine neue Trainingstechnik zu etablieren, die mit vergleichsweise wenig Daten und entsprechend weniger Compute die gleiche Performance wie das aktuell beste Modell auf dem Markt (o1 von OpenAI) hat. Das macht Sprachmodelle in Zukunft deutlich billiger in der Nutzung. Da alles OpenSource ist und sie ihr Vorgehen in mehreren Papern genau beschreiben, wird das wird sicher bald von allen anderen adaptiert und verbessert werden.

FactsFactsFacts · 2. Februar 2025 um 19:22

Ich versteh nicht wieso man hier spezifischer sein sollte, es macht die Diskussion um das Thema nur komplizierter und hat keienerlei Mehrwert für diese. Meiner Meinung nach ist es gut es so einfach wie möglich zu halten, da eben nicht jeder ein Experte ist.

kue · 3. Februar 2025 um 03:41

Muss man denke ich auch nicht so genau. Aber man sollte sich überlegen, wem man seine Daten anvertraut, denn LLMs werden heute für fast alles genutzt. Zweitens sollte man wissen, dass Modelle stark gebiased und zensiert sein können. Man kann DeepSeek ja mal ein paar politisch heikle Fragen stellen und wird schnell merken was das Problem ist. Der Unterschied ob man die Modelle lokal betreibt oder die API des chinesischen Unternehmens nutzt ist schon ein sehr wichtiger Unterschied. Auch für untechnische HörerInnen.

DanG · 6. Februar 2025 um 22:35

Machine learning postdoctoral researcher hier.
Ich finde den Abschnitt im Grunde absolut verständlich für die breite Masse erklärt - genau das was man von einem Politik-Podcast erwarten kann. Einziges nitpicking ist folgende Stelle:

Minute 1:18:xx, Ulf: „Find sehr spannend, dass das open source ist, […] Das bedeutete dass der Quelltext im Internet zum runterladen bereitsteht. […] Programmierer:innen können den Code weiterentwickeln.“

Wie schon andere oben angemerkt haben, muss man bei Machine Learning drei Dringe zu open source unterscheiden:

Model architecture code und model weights. Aus welchen Komponenten besteht das Model (in Form von Code) und sind die trainierten Parameter frei verfügbar.
Sind die Trainingsdaten frei verfügbar.
Ist der Code mit dem das Model auf den Trainingsdaten trainiert wurde, verfügbar.

Mit DeepseekR1 haben wir ein Model, das den ersten Punkt erfüllt, siehe hier. Solche Modelle nennt man auch open-weights. Hier analysieren Forscher/Entwickler die Architektur und entwickeln sie weiter (obwohl die Architektur schon in DeepseekV3 vom Dez24 vorhanden war, siehe hier). Dass, dieser Teil open source ist, erlaubt es, das Model auf eingenen (wenn auch kostspieligen) Serven laufen zu lassen.
Über den zweiten Punkt wird spekuliert, aber es ist nichts offziell bekannt.
Für den dritten Punkt ist kein Code verfügbar, aber die Trainingsdetails sind in einem veröffentlichten paper/technical Report vorhanden, siehe hier. Damit kann und wird der Trainingscode versucht nachzustellen von der community, siehe z.B. hier.

Warum ist das ganze jetzt interessant? Weil wir mit DeepseekR1 ein Model haben, wo das zugrundeliegende Base model (DeepseekV3) laut eigenen Angaben nur $5.576M zum trainieren gekostet hat, siehe Table 1 in DeepseekV3 paper (link ist oben, das Forum erlaubt nur 4 links pro Beitrag…). DeepseekR1 baut darauf auf und erreicht damit die Performance von dominierenden Modellen von OpenAI, die alle komplett closed-source sind. Das hat bisher kein open-weights Model geschafft. Damit wird die Stellung von closed-source Modellen in Frage gestellt, weil das Wissen wie man solche Modelle generieren kann, nun schneller und weiter verbreitet wird.

der_Matti · 7. Februar 2025 um 05:49

Aber das Modell ist open-source. Darum geht es doch. Jeder kann es nachbauen und selbst für eigene Zwecke nutzen, z.B. ein Recherche-Tool für den eigenen Firmenserver erstellen.

DanG · 7. Februar 2025 um 09:43

Das ist korrekt. Dadurch, dass das Model open-source ist, kann jeder es selbst hosten und es in seine Pipeline einbauen anstatt die API von Deepseek zu verwenden. Auch kannst du das Model beliebig finetunen, also an deine eigenen Daten anpassen.

Der große Nachteil ist nur, dass das Model, das so gut wie die neuesten OpenAI Modelle sind, rießig ist. Es hat 671 Milliarden parameter, was etwa 1300Gb download Größe entspricht. Um das zu hosten bräuchte man etwa 16 GPUs mit 80Gb VRAM, zum Beispiel Nvidia A100. Eine davon kostet zwischen 10k-15k$, also ist man gesamt bei 160k-240k$ nur für Hardware. Wenn einem das zu teuer ist, kann man es auch extern hosten und zahlt dann pro Stunde. Das kann man durchrechnen, was sich mehr lohnt.

Matder · 7. Februar 2025 um 10:54

Früher hieß solche Software schlicht „Freeware“, man konnte sie kostenlos downloaden und nutzen, aber (komplett) nachbauen ging nicht.

der_Matti · 7. Februar 2025 um 11:32

Das geht aber. Nur die Trainingsdaten sind nicht einsehbar. Wer aber den Aufwand betreibt und selbst das Internet und die öffentlichen Bibliotheken durchcrawlen lässt und danach die Software ihre Optimierungen machen lässt, kann theoretisch das gleiche Modell selbst erstellen. Die Mittel werden aber nur wenige dazu haben.

Matder · 7. Februar 2025 um 15:19

Das ist eben der Punkt. Anders als bisherige Software (selbst so umfangreiche Sachen wie Office-Pakete, Fotobearbeitung und sogar Betriebssysteme) kann KI offenbar nicht mehr von enthusiastischen Laien in vergleichbarer Qualität hergestellt werden.
Man macht sich abhängig von großen Firmen. Auch bei Deepseek sollen die wirklichen Kosten nach einer Analyse deutlich höher gelegen haben:

Demnach hat die Firma Deepseek wohl in ihrer Kostenrechnung die Hardware „vergessen“, die ihre Mutterfirma ihnen gestellt hatte, oder so ähnlich.

Aber wie dem auch sei, ich sehe bei KI-Software nicht annähernd die gleiche Nachvollziehbarkeit und Reproduzierbarkeit wie bei „normaler“ Software.

Slash · 7. Februar 2025 um 15:52

Aber wie dem auch sei, ich sehe bei KI-Software nicht annähernd die gleiche Nachvollziehbarkeit und Reproduzierbarkeit wie bei „normaler“ Software.

Aber das liegt ja irgendwie auch in der Natur der Sache. Man braucht einfach extremst viele Daten. Und entsprechend braucht man extremst viel Rechenleistung.

Man macht sich abhängig von großen Firmen.

Mag sein, aber was ist die Alternative?

sereksim · 7. Februar 2025 um 17:14

Nicht wirklich. Dass der Rechenaufwand hoch ist, ändert ja nichts daran, ob es quelloffen (Open-Source) ist, oder nicht.

Ich würde hinterfragen, ob „normale“ Software mehr nachvollzogen wird, gerade von „enthusiastischen Laien“. Kaum jemand prüft manuell den Quellcode aller Bibliotheken, bevor sie in ein Projekt eingebunden werden. Und selbst wenn, als Laie kannst du die Qualität eh kaum bewerten.

Deswegen ist open-source auch kein Qualitätssiegel. Open-Source ermöglicht, dass Qualität geprüft werden kann (notwendige Bedingung), es ist allein aber nicht automatisch hinreichend.

Ist bereits jetzt schon der Fall. Schau mal wer finanziell und personell hinter den großen Open-Source-Projekten steht. Bei den wirklich großen Projekten sind neben Red Hat und vllt noch Apache ganz oft Alphabet/Google und Meta/Facebook mit dabei. Selbst Mozilla kann mehr oder weniger nur durch das Geld von Google überleben.

mauermbq · 8. Februar 2025 um 11:49

Ich befasse mich schon seit 8 Jahren beruflich mit KI. Bei der Debatte finde ich folgendes bemerkenswert:

die Kosten des Modells sind natürlich nur Teil einer TCO. Man darf nicht vergessen dass hinter der Publikation > 100 der Top bezahlten Wissenschaftlern stehen und außerdem verfügen auch die Chinesen über einen gigantischen Pool von GPUs. Ob die Kosten wirklich vergleichbar sind ist nicht klar. Dennoch ein signifikanter Fortschritt und natürlich ein perfekter Zeitpunkt Kurz nach Veröffentlichung von Stargate
Sprung nach vorne zu immer effizienteren Modellen: Nichtsdestotrotz ein bemerkenswerter Erfolg. Damit wird ein Trend weiter verstärkt, der den Anwendern zu Gute kommt. Viele kleinere Modelle sind, wenn sie entsprechend optimiert wurden sogar besser als die Großen. Damit lässt sich in der Tat die Total Cost of Ownership von LLMs signifikant reduzieren. Das ist auch eine Riesen Chance für die heimische Wirtschaft. Verbesserte Trainingseffizienz und Verkleinerung der Modelle gehen hier Hand in Hand.
-OpenSource? Das gerade die Chinesen ihre Trainingsparameter sowie die Modellarchitektur offen legen ist ebenfalls bemerkenswert (Disclaimer: Das Modell ist im Sinne der Definition nicht OpenSource. Die Differenzierung wäre allerdings langatmig). Die Open Source Philosophie passt zu unserem Kulturkreis und wurde auch von den Amerikanern kultiviert. Viele mögen sich an die populäre Linux Diskussion erinnern. Schade dass gerade bei den LLMs die Offenheit von den Granden aus dem Westen nicht gestärkt wird und die Chinesen einen weiteren „Punch“ setzen.
Leistungsfähigkeit: Die Benchmarks sind gerade bei statistischen Verfahren ein zweischneidiges Schwert. Die bei Benchmarks standardisierten Testverfahren erlauben zwar eine gewisse Vergleichbarkeit, allerdings zeigen Tests, dass wenn man nur die Reihenfolge der Abfragen bei den Benchmarks leicht variiert, es zu großen Schwankungen bei den Ergebnissen kommt. Kurz Benchmarks sagen wenig über die Leistungsfähigkeit in der Praxis aus.
Alles in allem wird es immer einfacher LLMs in den Unternehmenskontext einzubinden wenn man es richtig macht.