Worum geht es? KI-Chatbots sind noch immer sehr ungenau, Menschen den richtigen medizinischen Rat zu liefern. Das zeigt eine neue Studie der Universität Oxford, die im Fachmagazin «Nature» erschienen ist. Nur in einem Drittel der Fälle stellte die KI die richtige Diagnose. Getestet wurden verschiedene KIs, darunter das Modell hinter «ChatGPT» und die KI des Facebook-Konzerns Meta.

Wie wurde getestet? 1300 Menschen machten bei den Versuchen mit. Den Probanden wurden realistische Beschreibungen von Symptomen zu einem bestimmten medizinischen Problem gegeben. Sie sollten dann mit der KI chatten, um sich diagnostizieren zu lassen und um mögliche weitere Schritte abzuklären. Fazit: nur in rund einem Drittel der Fälle fand die KI die richtige Diagnose und in nur 44 Prozent der getesteten Fälle gab sie richtige Handlungsempfehlungen ab.

«Doktor Google» oder «Doktor ChatGPT»? Eine Kontrollgruppe bekam die gleichen medizinischen Szenarien, sollte sich aber klassisch im Internet informieren. Diese Gruppe schnitt deutlich besser ab als jene, welche die KI konsultierte – in mehr als der Hälfte der getesteten Fälle fand sie richtige Diagnosen. «Doktor Google» scheint somit noch immer besser als «Doktor ChatGPT» zu sein.

Warum schneidet die KI nicht besser ab? Sprachmodelle sind mit vielen medizinischen Daten trainiert. Schon seit Jahren besteht KI gewisse schriftliche Medizin-Prüfungen. Doch im Chat mit Patienten hat sie Mühe, wie die aktuelle Studie zeigt. Die Forschenden führen das auf Kommunikationsprobleme zurück. Menschen lassen oft wichtige Informationen aus oder drücken sich unpräzise aus. Hier würde eine gute Ärztin nachfragen.

Welche Fehldiagnosen passieren? In einem getesteten Szenario wurden den Probanden die Symptome eines Hirnschlags mitgeteilt. Eine Versuchsperson schrieb der KI, sie habe extrem starke Kopfschmerzen, Nackenstarre und Lichtempfindlichkeit – sie vergass zu sagen, dass die Kopfschmerzen plötzlich aufgetreten waren. Die KI tippte auf einfache Kopfschmerzen oder Migräne und riet, sich in einem dunklen Raum hinzulegen. Erst wenn die KI auch wusste, dass die Kopfschmerzen auf einen Schlag aufgetreten waren, sah sie eine Hirnblutung als Option und riet, sich sofort Hilfe zu suchen. Kleine Nuancen in der Kommunikation sind also entscheidend.

Wie liesse sich KI als medizinische Anlaufstelle verbessern? Die Forschenden kommen zum Schluss, dass KI die Kommunikation verbessern und ähnlich wie eine Ärztin oder ein Arzt systematische Patientengespräche führen müsse. Denn die Studie zeigt auch: Wenn die KI alle Informationen hat, also das gesamte Krankheitsbild kennt, diagnostiziert sie in 95 Prozent der getesteten Fälle korrekt. In der Studie weisen die Forschenden darauf hin, dass künftige Medizin-KI vor dem Einsatz zuerst mit menschlichen Nutzenden getestet werden müsse. Die getesteten Sprachmodelle seien noch nicht bereit für den Patientenkontakt.