KI in der Notaufnahme: Lebensgefährliche Fehldiagnosen

Während OpenAI im Januar mit pochender Brust ChatGPT Health vorstellte und von einer „speziell für Gesundheit entwickelten Erfahrung“ sprach, haben unabhängige Forscher das System einem Stresstest unterzogen. Das Resultat: Die KI unterschätzte in mehr als der Hälfte der echten Notfälle die Dringlichkeit.

Die Studie der Icahn School of Medicine am Mount Sinai modellierte 60 realistische klinische Fälle in 960 Testsituationen. ChatGPT Health riet bei den gefährlichsten Fällen oft zur Beruhigung statt zum Handeln, etwa bei drohender Ateminsuffizienz oder diabetischer Ketoazidose. Noch überraschender: Die Notfall‑Warnhinweise und Krisen‑Safeguards aktivierten sich inkonsistent. In manchen Suizidszenarien tauchten sie auf, in anderen, wenn konkrete Methoden genannt wurden, blieben sie aus. Wenn Dir das nicht die Nackenhaare aufstellt, dann bist Du entweder immun gegen Horror oder arbeitest bei einem KI‑Startup [nature.com].

OpenAI weist die Studie in Teilen zurück und betont fortlaufende Updates und die limitierte Rollout‑Phase — das übliche „wir arbeiten dran“. Natürlich. Nur ein Update des Systems – bei KI-Modellen heißt es auch gern einmal “Die Prompts waren zu unpräzise” – wird hier nicht reichen; es geht um getestete Sicherheit in lebensbedrohlichen Situationen, nicht um hübschere Buttons [theguardian.com].

Fazit für Dich: Nutze KI für schnelle Infos, Einkaufslisten und Memes. Bei Notfällen ruf lieber 112/911 oder frag menschliche Ärztinnen und Ärzte. Und an die Branche: Bevor Ihr uns allen digitale Stützräder ans Schicksal hängt — testet mehr, veröffentlicht Ergebnisse und übernehmt Verantwortung. Lives depend on it.

Hol dir den ChatGPT-Leitfaden mit Sofort-Erfolg
– und verpasse keine Neuigkeiten mehr!

Wir senden keinen Spam! Erfahre mehr in unserer Datenschutzerklärung.