Nein. Das ist keineswegs Wunschdenken oder Täuschung, sondern schlicht Deep Learning. Was du beschreibst, dass Fähigkeiten aus der Masse der Trainingsdaten einfach so entstehen, liegt in der Natur des Deep Learning. Man muss LLMs eben nicht gezielt auf bestimmte Fähigkeiten hin trainieren, sondern sie entwickeln diese Fähigkeiten selbstständig (oft unerwartet bzw. schwer vorhersagbar), wenn sie mit genug Daten trainiert werden.
Eine ganz gute Einordnung („Explainer“) zu Emergenz bietet dieser Artikel: Emergent Abilities in Large Language Models: An Explainer. Hier die deutsche Google-Translate-Übersetzung.
Im Kapitel „Entstehung von Deep Learning“ heißt es:
Im Deep Learning wird emergentes Verhalten nicht nur toleriert, es ist notwendig. […]
Emergenz ist daher beim Deep Learning die Regel und nicht die Ausnahme. Jede Fähigkeit und interne Eigenschaft, die ein neuronales Netzwerk erlangt, ist emergent; nur die sehr einfache Struktur des neuronalen Netzwerks und sein Trainingsalgorithmus sind entworfen [=durch Menschen programmiert]. Während dies in der Informatik ungewöhnlich sein mag, ist es das nicht für die natürlichen Systeme, von denen neuronale Netzwerke ihren Namen haben."
Philip und Ulf hatten das in LdN366 ja auch sehr schön herausgearbeitet.
Beim Übergang von GPT-3 zu GPT-4 (siehe etwa diesen geposteten Vortrag aus dem letzten Jahr) hat man einige emergente Fähigkeiten sehen können. Etwa im Bezug auf begrenzte „Reasoning“-Fähigkeiten in GPT-4, die vorher so in GPT-3 nicht vorhanden waren. Und diese neuen Fähigkeiten haben rein gar nichts mit In-Context-Learning zu tun - also der Fähigkeit von LLMs innerhalb ihres Kontextes (=ihrer aktuellen Konversation) zu lernen. Sondern diese Fähigkeiten haben sich während des langwierigen Trainigsprozesses (Pretraining) emergent entwickelt, sind also in den Gewichten des Modells verankert (nicht im flüchtigen Kontext).
Nein und Ja. Aus dem Vorangegangenen sollte klar geworden sein, dass man durch das Skalieren von LLMs emergentes Verhalten nicht nur erreichen, sondern erwarten kann. Wie turmfalke schon sagte, geht aber niemand davon aus, dass man durch einfaches Skalieren der aktuellen Modelle alleine AGI erreichen kann. Es sind weitere Durchbrüche nötig (etwa in Bezug darauf, was manchmal als „System 2 Thinking“ bezeichnet wird, siehe die Ausführungen zu Kahneman weiter oben).