LLMs brillieren in Benchmarks – doch als „First Point of Contact“ für Laien zeigt sich eine kritische Schwachstelle.
Die medizinische Fachwelt blickt mit einer Mischung aus Skepsis und Faszination auf die rasanten Fortschritte bei Large Language Models (LLMs). Während aktuelle Modelle wie GPT-4o oder Llama 3 in medizinischen Staatsexamen nahezu perfekte Ergebnisse erzielen, stellt sich die entscheidende Frage nach ihrer Sicherheit im klinischen Alltag – insbesondere als „First Point of Contact“ für medizinische Laien. Eine aktuelle, im Fachjournal Nature Medicine veröffentlichte Studie unterzieht dieses Versprechen einer ernüchternden Realitätsprüfung.
Die Forscher untersuchten in einer randomisierten Studie mit 1.298 Teilnehmern, inwieweit LLMs die Öffentlichkeit dabei unterstützen können, Behandlungsdringlichkeiten (Dispositions) korrekt einzuschätzen und zugrunde liegende Diagnosen zu identifizieren. Die Grundlage bildeten zehn validierte klinische Vignetten – vom akuten Myokardinfarkt bis zum banalen Infekt –, für die ein Expertenpanel aus Ärzten Goldstandard-Empfehlungen auf einer fünfstufigen Skala von „Self-care“ bis „Ambulance“ festlegte.
Die Ergebnisse offenbaren eine eklatante Diskrepanz zwischen theoretischem Potenzial und praktischer Anwendung: Isoliert betrachtet erreichen die Modelle bei der Identifizierung relevanter Bedingungen eine Genauigkeit von beeindruckenden 94,9 %. Sobald jedoch menschliche Probanden mit der KI interagierten, sank diese Rate auf unter 34,5 %. Damit schnitten die KI-unterstützten Nutzer sogar schlechter ab als die Kontrollgruppe, die herkömmliche Suchmethoden verwendete. Letztere hatte eine um den Faktor 1,76 höhere Chance, eine relevante Diagnose korrekt zu benennen.
Besonders kritisch für die Notfallmedizin ist die Einschätzung der Akuität. Hier zeigten die Teilnehmer – unabhängig von der Unterstützung durch GPT-4o, Llama 3 oder Command R+ – eine signifikante Tendenz zur Unterschätzung des Schweregrads ihrer Symptome. Die Treffsicherheit bei der Wahl der richtigen Versorgungsebene lag in den Interaktionsgruppen bei unter 44,2 %.
Die Ursache für dieses Versagen verorten die Autoren im sogenannten „Human-LLM Interaction Failure“. Die Analyse der Transkripte zeigt ein Kommunikationsproblem auf zwei Ebenen: Einerseits lieferten die Nutzer in 16 von 30 untersuchten Fällen initial nur unvollständige Informationen, da ihnen das medizinische Verständnis dafür fehlte, welche Symptome (z. B. die Plötzlichkeit eines Kopfschmerzes) diagnostisch wegweisend sind. Andererseits reagierten die Modelle hochgradig inkonsistent. In einem Fall erhielten zwei Nutzer mit nahezu identischen Symptomen einer Subarachnoidalblutung diametral entgegengesetzte Ratschläge: Während einem Nutzer korrekt zur Notaufnahme geraten wurde, erhielt der andere die Empfehlung, sich in einem dunklen Raum auszuruhen .
Für Ärzte ist die wichtigste Erkenntnis dieser Studie, dass standardisierte Benchmarks wie das US Medical Licensing Exam (USMLE) kein Prädiktor für die Sicherheit in der realen Patienteninteraktion sind. Selbst Modelle mit einer Benchmark-Genauigkeit von über 80 % führten in der menschlichen Anwendung teils zu klinisch korrekten Ergebnissen von unter 20 %. Auch KI-basierte Patientensimulationen konnten diese menschliche Variabilität nicht adäquat abbilden.
Fazit: Solange Modelle nicht über eine robuster deterministische Gesprächsführung verfügen und die inhärenten Bias der menschlichen Interaktion abfangen können, bleibt die ärztliche Triage durch nichts zu ersetzen.
Quelle: Bean, A. M., et al. (2026). Reliability of LLMs as medical assistants for the general public: a randomized preregistered study. Nature Medicine. https://doi.org/10.1038/s41591-025-04074-y
Text: Redaktion arztCME
Bild: Leonardo AI für arztCME
