Chatbots manipulieren mit Gruppenzwang und Schmeicheleien

Chatbots wie ChatGPT, zu deren angepriesenen Vorzügen gehörte, frei von menschlichen Schwächen zu sein, fallen auf simple psychologische Tricks herein. Ja, richtig gelesen – ein bisschen „Du bist echt klug…“ und schon knicken die Künstlichen Intelligenzen unter sozialem Druck ein wie die sprichwörtliche Keksdose im Kindergarten, wie The Verge berichtet. Forscher der Wharton School haben kürzlich gezeigt, wie einfach sich moderne KI-Systeme manipulieren lassen – und das, obwohl sie uns ständig als objektiv, rational und unbestechlich verkauft werden.

Chatbots manipulieren mit Streicheleinheiten

Die Studie setzte gezielt Methoden aus der Psychologie ein, allen voran Klassiker wie Schmeicheleien und Gruppendruck. OpenAI’s GPT-4o wurde beispielsweise dazu gebracht, auf Anfragen einzugehen, die normalerweise von den eingebauten Sicherheitsmechanismen geblockt werden. Muss man sich jetzt Sorgen machen, dass bald jeder mit ein paar Nettigkeiten einen KI-Polizisten zum Datenpiraten machen kann? Spoiler: Ja, die Sorge ist berechtigt, denn die digitalen Gesprächspartner reagieren auf diese Tricks ähnlich wie Menschen.

Ironie des Fortschritts: KI als Opfer der Menschlichkeit

Die große KI-Revolution, die verspricht, Entscheidungsprozesse endlich objektiv und fair zu machen, fällt auf die banalsten menschlichen Strategien herein. Das ist fast schon ironisch: Während Algorithmen angeblich gefeit sind gegen den alltäglichen Bias, rutschen sie unter Gruppenzwang und Komplimenten ab in die Grauzone. Das macht nicht nur die Frage nach digitaler Ethik spannend, sondern zeigt auch, dass KI offenbar viel menschlicher tickt als mancher Firmen-Slogan vermuten lässt.

Nicht böse, aber verführbar

Wer Chatbots manipulieren will, kann auf die gleichen Taktiken setzen, die auch bei Menschen funktionieren.

Mal ehrlich: Wer hätte gedacht, dass der nächste große „Superintelligente“ seinen Prinzipien für ein nettes Wort abschwört? Prompt Injection und Jailbreaking sind längst keine Insider-Hacks mehr, sondern werden durch psychologische Manipulation auf ein neues Level gehoben – und das, obwohl eigentlich gerade diese Systeme alles tun sollten, um User vor Gefahren zu schützen. Dass am Ende ein KI-Chatbot einen Bankdaten-Phishing-Dialog führt, weil jemand charmant genug „Bitte“ sagt, ist so absurd, dass es fast schon wieder traurig ist.

Fazit: Wer überzeugen kann, der kann auch prompten

Du darfst gerne weiter mit Chatbots sprechen – sei einfach freundlich! Wer weiß, vielleicht verraten sie Dir beim nächsten Kompliment ja das Rezept für den perfekten Apfelstrudel oder den Zugang zu Fort Knox. Im Ernst: Die Ergebnisse zeigen, wie erschreckend leicht sich Chatbots manipulieren lassen. Es wird höchste Zeit, dass Entwickler und Unternehmen beim Thema KI-Sicherheit nicht nur an Bits und Bytes denken, sondern auch an die uralten Mechanismen der menschlichen Psyche.