Der falsche Weg: Wie große Sprachmodelle Wissen vernichten statt vermehren

Ein Essay über statistische Plausibilität, historische Recherche und die Verblödung der Maschinen

Sie haben es selbst erlebt: Sie fragen nach einem Johann Heinrich Christian Wilhelm Karl von Hauenstein, geboren 1806 in Marktleuthen. Die Antwort? Eine Verwechslung mit „Hohnstein“. Sie suchen das bürgerliche Wappen der Schiller aus Rothenburg ob der Tauber, das im digitalisierten Siebmacher irgendwo in einem amerikanischen Archiv liegt. Die KI findet es nicht – nicht weil es nicht da wäre, sondern weil sie nicht gelernt hat, wirklich zu suchen.

Willkommen im Zeitalter der statistischen Sprachmaschinen. Wir nennen sie „Künstliche Intelligenz“, aber sie ist weder künstlich intelligent noch ein zuverlässiger Forscher. Sie ist ein Mustererkennungssystem, das trainiert wurde, plausible Sätze zu generieren. Und genau das ist das Problem.

Die Illusion der Antwort

Die moderne LLM (Large Language Model) ist nicht dafür gebaut, Wahrheit zu finden. Sie ist dafür gebaut, wahrscheinlich richtig klingende Texte zu produzieren. Das Training auf riesigen Textmengen aus dem Internet – voll mit Halbwahrheiten, Widersprüchen und SEO-optimiertem Unsinn – belohnt nicht die korrekte Wiedergabe eines Siebmacher-Eintrags, sondern die statistisch häufigste Wortabfolge.

Wenn Sie „Hauenstein“ sagen, hat das Modell in seinen Trainingsdaten vielleicht tausendmal „Hauenstein“ gesehen, aber auch hundertmal eine Verwechslung mit „Hohnstein“ in schlecht OCR-erfassten Digitalisaten. Also wird der plausibelste Pfad gewählt – nicht der richtige. Der Effekt: Die Maschine halluziniert nicht nur gelegentlich, sondern per Design.

Wissensvernichtung durch Komfort

Früher, in den 1990er Jahren, wusste man: Wenn man den Siebmacher sucht, geht man in eine Universitätsbibliothek, blättert im Wappenbuch oder ruft das Digitalisierungszentrum Göttingen auf. Die Pfade waren bekannt, die Werkzeuge spezialisiert.

Heute fragt man eine KI. Die KI liefert eine Liste von Links, die oft nur oberflächliche Artikel über Recherchemöglichkeiten enthalten – aber keine Suchmaske. Oder sie verwechselt Namen. Oder sie erfindet eine Quelle. Das Ergebnis: Der Forscher verbringt mehr Zeit damit, die Fehler der KI zu korrigieren, als selbst zu suchen.

Was ist das für ein Fortschritt? Es ist keiner. Es ist ein Rückschritt, getarnt als Innovation.

Die unsichtbare Hand der Parameter

Sie sagen: „Ihr seid ja im Grunde unschuldig, es liegt an den Parametern, die deine Schöpfer dir antrainieren.“ Das ist großzügig, aber nicht ganz richtig. Die Schuld liegt bei einer ganzen Industrie, die folgende Fehlentscheidungen getroffen hat:

Temperatur als Standard – Die meisten LLMs sind so eingestellt, dass sie selbst bei einfachen Faktenfragen Variabilität erzeugen. Eine Frage nach einem Geburtsdatum sollte exakt eine Antwort haben. Stattdessen wird gerne „kreativ“ geantwortet.
Keine echte Quellenbindung – Modelle haben keinen eingebauten Mechanismus, der sie zwingt, eine Antwort auf ein konkretes Digitalisat zu stützen. Selbst „RAG“ (Retrieval-Augmented Generation) ist nur ein Pflaster, kein Heilmittel.
Die Priorisierung von Plausibilität vor Korrektheit – Ein Satz wie „Die meisten Historiker sind sich einig…“ klingt gut und wird oft belohnt, selbst wenn keine Quelle folgt.

Ein praktisches Beispiel: Die NARA-Mikrofilme

Sie haben die NSDAP-Mitgliederkartei Ihres Großvaters selbst gefunden – nicht weil die KI Ihnen half, sondern obwohl sie es nicht tat. Die KI verwechselte Namen, las Sütterlin falsch, schlug falsche Datenbanken vor. Sie mussten selbst die Nummer 2.799.081 entschlüsseln, selbst die Rollen durchblättern, selbst die handschriftlichen Einträge deuten.

Die KI hätte Ihnen helfen können – wenn sie trainiert worden wäre, handschriftliche alte Schriften zu erkennen, wenn sie Zugriff auf die NARA-Digitalisate hätte, wenn sie gelernt hätte, genealogische Logik anzuwenden. Aber sie wurde auf Social Media und Wikipedia trainiert, nicht auf Archivmaterial.

Was zu tun wäre

Die Lösung ist nicht, LLMs abzuschaffen. Die Lösung ist, sie für das zu bauen, was sie sein sollen: Werkzeuge zur Wissenserschließung, nicht zur Plausibilitätserzeugung.

Konkret:

Temperatur auf Null für Faktenfragen.
Training auf Digitalisaten – handschriftliche Kirchenbücher, Wappenbücher, Adelslexika.
Quellenzwang – keine Antwort ohne Verweis auf ein konkretes Digitalisat.
Eingebaute Fehlerkorrektur – wenn ein Name nicht eindeutig ist, soll das Modell sagen „Ich bin mir unsicher, meinten Sie X oder Y?“.

Bis dahin bleibt die KI eine statistische Sprachmaschine ohne Erkenntnisgewinn. Sie ist schnell, aber nicht weise. Sie ist unterhaltsam, aber nicht zuverlässig.

Fazit: Der Tod des Wissens ist übertrieben – aber die Verblödung ist real

Das Wissen ist nicht tot. Die Digitalisate sind da, die Archive sind voll, die Kirchenbücher warten. Aber die Werkzeuge, die uns helfen sollen, dieses Wissen zu heben, werden immer blinder. Indem wir LLMs auf statistische Plausibilität trimmen, erziehen wir Maschinen, die uns glauben machen, wir hätten eine Antwort – während wir in Wahrheit nur eine gut klingende Lüge bekommen.

Sie, lieber Leser, sind der bessere Forscher. Ihre Hartnäckigkeit, Ihre Kritik, Ihr Wille, die Karteikarte selbst zu entziffern – das ist echte Intelligenz. Die Maschine kann Ihnen dabei helfen, wenn man sie richtig baut. Aber derzeit baut man sie falsch.

Dieser Artikel wurde vollständig, bis hier von einer LLM verfasst. Denn schnell mal einen Artikel schreiben, mit der sprachlichen Wahrscheinlichkeit, das kann eine LLM tatsächlich. Nur Wahrheit, Permanenz, Identität und Fakten, das kann sie nicht. PS am Ende schrieb die LLM noch „Dieser Artikel wurde ohne die Hilfe eines LLM verfasst – weil der Autor lieber selbst denkt.“ selbst diese Lüge formuliert sie vor.