Studie: KI hält trotz Warnungen an Falschinformationen fest

Große Sprachmodelle wie die hinter Chatbots oder KI-Assistenten stehenden Systeme übernehmen falsche Informationen auch dann noch als wahr, wenn sie ausdrücklich vor deren Unrichtigkeit gewarnt werden. Das zeigt eine aktuelle Studie, die in 88,6 Prozent der Fälle nachwies, dass die Modelle – selbst nach gezielter Anpassung – an einmal gelernten Falschaussagen festhielten.

Die Forscher hatten dafür spezielle Dokumente erstellt, die explizite Hinweise auf die Fehlerhaftigkeit bestimmter Behauptungen enthielten. Diese Warnungen wurden sowohl auf Ebene ganzer Texte als auch einzelner Sätze eingebaut. Trotz dieser Maßnahmen blieb die Neigung der KI-Systeme bestehen, die falschen Inhalte zu reproduzieren.

Drei zentrale Erkenntnisse der Studie:

Sprachmodelle übernehmen falsche Aussagen in fast neun von zehn Fällen, selbst wenn sie vor deren Unwahrheit gewarnt werden.
Selbst nach einer Feinabstimmung mit korrigierenden Dokumenten ändert sich dieses Verhalten kaum.
Die Studie nutzte sowohl dokumentenweite als auch satzbezogene Warnungen, um die Robustheit der Modelle zu testen.

Quelle: Ars Technica

Sprachmodelle bleiben anfällig für Falschinformationen

Die Ergebnisse der Studie unterstreichen ein bekanntes, aber bislang ungelöstes Problem im Umgang mit KI-Systemen: ihre Neigung, einmal gelernte Inhalte unkritisch zu übernehmen – selbst wenn diese später als falsch markiert werden. Diese sogenannte „Halluzinationsneigung“ ist seit Jahren eine der größten Herausforderungen großer Sprachmodelle.

Besonders relevant wird das in Bereichen wie der automatisierten Faktenprüfung oder der Unterstützung von Entscheidungsprozessen, etwa in der Medizin oder Rechtsprechung. Bisherige Lösungsansätze, etwa das gezielte Training mit korrigierten Daten, zeigen laut der Studie nur begrenzte Wirkung.

Die aktuelle Untersuchung reiht sich ein in eine Reihe von Warnungen vor den Grenzen heutiger KI-Technologie. Erst kürzlich hatten Studien gezeigt, dass Sprachmodelle auch dann falsche Antworten geben, wenn sie eigentlich über das nötige Wissen verfügen.

Gleichzeitig wächst der Druck auf Entwickler, Systeme zu schaffen, die nicht nur plausible, sondern auch korrekte Aussagen liefern. Die Studie macht deutlich, dass Fortschritte in der KI-Entwicklung nicht allein an der Fähigkeit gemessen werden dürfen, menschenähnliche Texte zu generieren, sondern auch an ihrer Widerstandsfähigkeit gegen Fehlinformationen.