Ein Microsoft-Forscher hat im Karten-Editor von Age of Empires II ein funktionierendes neuronales Netz konstruiert – mit Ziegen als Aktivierungseinheiten, Brücken als Verbindungen und Eisrampen als Schwellenwerte. Was nach einem unterhaltsamen Wochenendprojekt klingt, ist in Wirklichkeit eine methodische Kritik an einem erheblichen Teil der aktuellen KI-Forschung: Zu viele Paper setzen voraus, dass Sprachmodelle menschenähnliche Eigenschaften besitzen – ohne diese Annahme zu begründen.

Der Forscher hat das Experiment nicht aus Spielfreude durchgeführt, sondern mit einem klaren Ziel: Wenn man die exakt gleiche Mathematik, die einem Large Language Model (LLM, also einem großen Sprachmodell) zugrunde liegt, in einem mittelalterlichen Echtzeitstrategiespiel nachbaut, wirkt die Idee einer „Persönlichkeit“ oder eines „Verstehens“ des Modells plötzlich absurd. Die Ziegen wandern durch Gatter, akkumulieren Gewichte, feuern Schwellenwerte – und das Ergebnis ist rechnerisch identisch mit dem, was in einem modernen Transformer-Modell passiert.

Was steckt hinter dem Experiment?

Der eigentliche Befund ist aber ein anderer: Laut seiner Analyse setzt mehr als die Hälfte der untersuchten KI-Paper bereits in der Fragestellung voraus, dass Sprachmodelle menschenähnliche kognitive Eigenschaften besitzen – etwa Überzeugungen, Absichten oder Emotionen. Das ist kein Randproblem. Es bedeutet, dass Schlussfolgerungen aus diesen Studien auf einer ungeprüften Grundannahme basieren.

**Merksatz:** Die Benutzeroberfläche eines Chatbots erzeugt eine Illusion von Gegenüber. Die Mathematik darunter kennt keine Absichten.

Was bedeutet das für die Praxis?

In meinen Azure-Kursen taucht diese Verwechslung regelmäßig auf: Teilnehmende beschreiben Azure OpenAI oder Microsoft Copilot mit Formulierungen wie „das Modell will“, „das Modell versteht“ oder „das Modell denkt“. Das ist verständlich – das Interface lädt dazu ein. Es führt aber zu falschen Erwartungen, zu schlecht formulierten Prompts und letztlich zu enttäuschenden Ergebnissen im produktiven Einsatz.

Wer LLM-basierte Lösungen in Unternehmensumgebungen einführt – sei es über Azure OpenAI Service, Microsoft Copilot for Microsoft 365 oder eigene RAG-Architekturen (Retrieval-Augmented Generation, also abrufgestützte Textgenerierung) – sollte intern klare Begriffe verwenden:

Umgangssprachlich (irreführend) Technisch korrekt
Das Modell versteht die Frage Das Modell berechnet wahrscheinliche Token-Folgen auf Basis des Kontexts
Das Modell will helfen Das Modell wurde auf hilfreiches Antwortverhalten feinabgestimmt (RLHF)
Das Modell macht einen Fehler absichtlich Die Ausgabe liegt außerhalb der trainierten Wahrscheinlichkeitsverteilung
Das Modell erinnert sich Der Kontext liegt im aktiven Promptfenster – ohne persistentes Gedächtnis

**Praxistipp:** Führen Sie in Ihrem Team oder Ihrer Organisation eine kurze Begriffsklärung durch, bevor Sie KI-Projekte starten. Nicht als philosophische Übung, sondern als Grundlage für realistische Anforderungsdefinitionen und verlässliche Erwartungshaltungen gegenüber Stakeholdern.

Das AoE2-Experiment ist ein ungewöhnlich cleveres Werkzeug, um genau diese Diskussion anzustoßen – auch in Workshops oder Schulungen. Ich werde es künftig in meinen Azure-Kursen einsetzen, wenn es um die Grundlagen von LLMs und die kritische Einordnung von KI-Versprechen geht.

Noch mal in Kürze: Gleiche Mathematik, anderes Interface, anderes Bauchgefühl. Das ist die Kernaussage – und sie ist für jeden relevant, der KI-Systeme in Produktion bringt.

Originalmeldung bei The Decoder (DE)

Schreibe einen Kommentar

Deine E-Mail-Adresse wird nicht veröffentlicht. Erforderliche Felder sind mit * markiert

Diese Website verwendet Akismet, um Spam zu reduzieren. Erfahre, wie deine Kommentardaten verarbeitet werden.