@Matder sorry, aber ich glaube kaum dass das korrekt ist. Der folgende Beitrag wird eine kleine Linksammlung. Ich hoffe es bleibt übersichtlich genug.
Eine Liste mit durchaus heute schon nutzbaren LLMs, inklusive einiger Open-Source Modelle.
Databricks hat das Dataset zu seinem Dolly bei Huggingface zum Download bereitgestellt.
Es basiert auf dem Dataset von Alpaca (Finetuning von Stanford auf Basis von Facebooks LLaMA), das damit ebenfalls offen zugänglich ist.
Auch das Trainingsset von RedPajama ist frei verfügbar
, ebenso wie die Daten von den mpt-Modellen der Firma mosaicml (diese Woche von Databricks gekauft), dessen Dataset auf Googles C4-Set beruht.
Es ist, denke ich, kein Zufall, dass Stimmen bei Google befürchten, dass die Open-Source Community bald die LLM-Entwicklung dominiert und nicht Unternehmen wie Google und OpenAI.
Und Sam Altman hat vor einer Weile gesagt, er sei überzeugt, OpenAIs Vorteil gegenüber Open-Source seien vor allem:
- , dass sie der Open-Source Community mit jeder Version einige Monate voraus sei
- , dass ihre Modelle easy zu nutzen sind und
- es bereits eingebaute Sicherheitsfeatures gäbe.
Das sei in Zukunft OpenAIs Alleinstellungsmerkmal, den es gegenüber Open-Source zu verteidigen gäbe (keine Quelle vorhanden. Ich weiß nicht mehr wo genau das war. Ich gebe meine Erinnerung wieder.)
Das sieht mir alles nicht so aus, als ob das eine geschlossene Veranstaltung großer Firmen bliebe. Nichts für ungut.