KI-Chatbots lieferten in zwei Dritteln der Fälle eine falsche Diagnose und erkannten oft nicht, wann ein Notfall vorliegt.
Oxford – Chatbots mit künstlicher Intelligenz liefern bei medizinischen Fragen keine besseren Ergebnisse als gewöhnliche Websuchen. Zu diesem Ergebnis kommt eine britische Studie, die in dieser Woche in der Fachzeitschrift Nature Medicine veröffentlicht wurde.
Ein Forschungsteam der University of Oxford befragte fast 1.300 britische Erwachsene. Sie sollten sich vorstellen, an einer von zehn häufigen Erkrankungen zu leiden. Dann nutzten sie entweder ChatGPT oder eine Suchmaschine zur Diagnosestellung und zur Wahl eines nächsten Schrittes. Das Resultat: Beide Gruppen lagen in etwa gleich oft richtig. Bei beiden war die Trefferquote niedrig.
Besonders medizinische Dringlichkeit wird falsch eingeschätzt
Laut Reuters trafen Nutzer des Chatbots in etwa einem Drittel der Fälle die richtige Diagnose. In weniger als der Hälfte der Fälle empfahlen sie eine geeignete Maßnahme. Die Ergebnisse waren vergleichbar mit denen der Suchmaschinen-Nutzer.
„Trotz des ganzen Hypes sind KI-Tools einfach noch nicht bereit, die Rolle des Arztes zu übernehmen“, sagte Dr. Rebecca Payne, leitende Studienautorin, laut BBC News. Sie warnte davor, dass das Befragen von Chatbots zu Fehleinschätzungen führen könne.
Diagnosen ohne Kontext
Das Team konstruierte zehn typische Szenarien mit Symptomen, Hintergründen und Krankengeschichten, so Le Monde. Die Bandbreite reichte von alkoholbedingten Kopfschmerzen über postpartale Erschöpfung bis hin zu Gallensteinschmerzen. Die Diagnosegenauigkeit der ChatGPT-Nutzer lag im hohen Dreißiger-Prozent-Bereich. Bei den Handlungsentscheidungen waren es unter 50 Prozent.
Eine detaillierte Analyse der Chatverläufe offenbarte laut TechNews Science ein klares Muster. Chatbots mit strukturierten Symptomlisten durch Ärztinnen und Ärzte erreichten teils 95 Prozent Genauigkeit. Aber sie schnitten deutlich schlechter ab, als Laien ohne Fachkenntnisse ihre Beschwerden schilderten.
Widersprüchliche Empfehlungen
Die Antworten der Chatbots widersprachen sich zudem. Daily News berichtete über zwei reale Fälle, in denen Nutzer Symptome einer Hirnblutung schilderten. Der eine wurde zur Notaufnahme geschickt, der andere sollte sich zu Hause ausruhen. Sowohl Chatbot- als auch Suchmaschinenutzer unterschätzten in über der Hälfte der Fälle die Dringlichkeit ihrer Symptome. Oft wählten sie falsche Maßnahmen.
Trotz dieser Schwächen greifen viele Menschen auf KI-basierte Gesundheitsberatung zurück. An ChatGPT richten Nutzer täglich mehr als 40 Millionen Gesundheitsfragen, so das Unternehmen OpenAI. Laut einer BBC-Umfrage nutzt ein Drittel der Briten KI zur Unterstützung ihrer psychischen Gesundheit. In den USA fragt bereits jeder sechste Erwachsene mindestens einmal im Monat einen Chatbot zu medizinischen Themen.
KI-Modelle machen oft falsche medizinische Aussagen auf selbstsichere Art und Weise. „Aktuelle KI-Systeme können selbstbewusste medizinische Sprache standardmäßig als wahr behandeln, selbst wenn sie eindeutig falsch ist“, sagte Dr. Eyal Klang, einer der Mitautoren. (Redaktion)