Home | Archiv | Impressum



17. Mai 2025, von Michael Schöfer
Sprachmodelle überzeugen mich nicht


Selbst Koryphäen sind nicht vor Irrtümern gefeit. Nehmen wir etwa den irischen Physiker William Thomson (1824-1907), besser bekannt unter dem Namen Lord Kelvin. Er war unter anderem von 1890 bis 1895 Präsident der britischen Royal Society, mithin einer der führenden Wissenschaftler seiner Zeit. "Eines wissen wir sicher, und das ist die reale und materielle Existenz des lichttragenden Äthers", erklärte er 1884 seinen Zuhörern in einem Vortrag über die Wellentheorie des Lichts. Bedauerlicherweise, zumindest für Lord Kelvin, widerlegten Albert Michelson und Edward Morley bereits 1887 in einem bahnbrechenden Experiment die Existenz des Äthers. Und darauf aufbauend entwickelte ein gewisser Albert Einstein seine Relativitätstheorie. Nicht verbürgt ist ein anderes Zitat von Lord Kelvin: "Schwerer als Luft? Solche Flugmaschinen sind unmöglich." Es wird allerdings häufig verwendet, um die Unsicherheit von Prognosen zu belegen. Oder um es mit dem verschmitztem Humor des Atomphysikers Niels Bohr auszudrücken: "Voraussagen sind schwierig – vor allem wenn sie die Zukunft betreffen."

Momentan erlebt die Künstliche Intelligenz einen Hype, große Tech-Unternehmen investieren Milliarden und integrieren KI in ihre Programme, etwa der Software-Gigant Microsoft. Insbesondere ChatGPT von OpenAI bekommt viel Aufmerksamkeit, weil man sich mit der KI wirklich gut unterhalten kann, und sie besteht sicherlich den Turing-Test. Zweifellos hat KI bei der Mustererkennung große Vorteile, was etwa im Bereich der Medizin die Diagnose erheblich verbessern kann, auch im militärischen Bereich wird sie fraglos eine entscheidende Rolle spielen. Letzteres zugegebenermaßen mit großem Unbehagen, weil neue strategische Fähigkeiten die globalen Machtverhältnisse völlig auf den Kopf stellen könnten. Wie dem auch sei, im Fall der LLM (Large Language Model) bin ich mittlerweile jedoch skeptisch geworden, einfach weil mich das Konzept der LLM nicht überzeugt.

LLM werden mit riesigen Datenbeständen trainiert, aber sind bzw. werden sie dadurch intelligent? Momentan simulieren sie bloß Intelligenz, besitzen sie jedoch (noch) nicht. LLM seien nichts anderes als ein "stochastischer Papagei", der gar nicht wirklich versteht, was er produziert, sagen Kritiker. (Stochastik = mathematische Statistik) Anhand der Trainingsdaten wissen die Sprachmodelle zwar, mit welcher statistischen Wahrscheinlichkeit ein Wort auf das andere folgt, was durchaus zu beeindruckenden Ergebnissen führt. Aber ist das Intelligenz? Nehmen wir an, man würde Sie mit riesigen Datenbeständen darauf trainieren, chinesische Schriftzeichen in statistisch sinnvoller Weise aneinanderzureihen. Sie wären deshalb in der Lage, mit hoher Trefferwahrscheinlichkeit brauchbare Texte zu produzieren - auch wenn Sie überhaupt kein Chinesisch beherrschen und ihnen die Bedeutung der einzelnen Schriftzeichen völlig unbekannt ist. Sie könnten mit einem Chinesen kommunizieren, ohne die Bedeutung der Kommunikation zu verstehen, weil Sie lediglich mit hoher statistischer Wahrscheinlichkeit das nachplappern, womit man Sie trainiert hat. Sie verstehen nicht, was Sie sagen, aber Sie verstehen, wie man es sagt (vgl. das Gedankenexperiment "Chinesisches Zimmer" von John Searle).

Ob aus diesem Ansatz irgendwann wirklich Künstliche Intelligenz entsteht, darf man mit Fug und Recht bezweifeln. Wären LLM in der Lage, über das Bestehende (= Trainingsdaten) hinaus Neues zu kreieren? Wie Shakespeare mit seinen Dramen oder wie Einstein mit seiner jeder Intuition widersprechenden physikalischen Beschreibung? Wohl kaum. Aber natürlich, siehe oben, sind solchen Prognosen höchst unsicher. Wahrscheinlich hätte ich Mitte des 19. Jahrhunderts ebenfalls steif und fest behauptet: "Schwerer als Luft? Solche Flugmaschinen sind unmöglich." Als genauso falsch könnte sich heute die Skepsis gegenüber den Sprachmodellen erweisen. Wir verstehen immer noch nicht, wie unser eigenes Gehirn Bewusstsein (die Grundlage des menschlichen Denkens) hervorbringt. Insofern können wir auch nicht ausschließen, dass Computerprogramme irgendwann das Gleiche tun, eben nur auf einer anderen (anorganischen) Hardwarebasis. Doch bis zum Beweis des Gegenteils bleibe ich bei meiner Meinung: Vom Ansatz der Sprachmodelle bin ich nicht überzeugt, sie könnten sich daher - trotz des gegenwärtigen Hypes - als Sackgasse erweisen.

Nachtrag (21.05.2025):
Ich habe ChatGPT heute eine Aufgabe gestellt: Auflistung aller Weltrekorde im Weitsprung der Männer. Eigentlich eine ziemlich einfache Sache, denkt man. Aber:

• 9 Angaben waren korrekt
• 1 Angabe wies einen Fehler beim Datum auf
• 1 Angabe wies einen Fehler beim Datum UND bei der Weite auf
• 6 Weltrekorde fehlten ganz

Hinweis: Die Daten der englischen Wikipedia waren korrekt und wurden von mir mit den Angaben bei World Athletics (früher IAAF) verglichen, dem Leichtathletik-Weltverband.

Fazit: Wenn man die Ergebnisse, die Sprachmodelle ausspucken, mühsam auf ihre Richtigkeit hin prüfen muss, sind sie in der Praxis nicht zu gebrauchen. Und wenn man ihre Fehleranfälligkeit berücksichtigt, schaut man sich besser nach etwas anderem um. Falls das jetzt massenhaft in den Geschäftsbereich einzieht, werden wir noch böse Überraschungen erleben.