MedicalLearning – Blog zur Zukunft der medizinischen Information

Selbstdiagnose: Wo die Mensch–KI-Interaktion versagt

23. Februar 2026

lucid-origin_Photorealistic_editorial_hero_image_for_a_medical_blog_article_about_AI_self-dia-0

LLMs brillieren in Benchmarks – doch als „First Point of Contact“ für Laien zeigt sich eine kritische Schwachstelle.

Die medizinische Fachwelt blickt mit einer Mischung aus Skepsis und Faszination auf die rasanten Fortschritte bei Large Language Models (LLMs). Während aktuelle Modelle wie GPT-4o oder Llama 3 in medizinischen Staatsexamen nahezu perfekte Ergebnisse erzielen, stellt sich die entscheidende Frage nach ihrer Sicherheit im klinischen Alltag – insbesondere als „First Point of Contact“ für medizinische Laien. Eine aktuelle, im Fachjournal Nature Medicine veröffentlichte Studie unterzieht dieses Versprechen einer ernüchternden Realitätsprüfung.

Die Forscher untersuchten in einer randomisierten Studie mit 1.298 Teilnehmern, inwieweit LLMs die Öffentlichkeit dabei unterstützen können, Behandlungsdringlichkeiten (Dispositions) korrekt einzuschätzen und zugrunde liegende Diagnosen zu identifizieren. Die Grundlage bildeten zehn validierte klinische Vignetten – vom akuten Myokardinfarkt bis zum banalen Infekt –, für die ein Expertenpanel aus Ärzten Goldstandard-Empfehlungen auf einer fünfstufigen Skala von „Self-care“ bis „Ambulance“ festlegte.

Die Ergebnisse offenbaren eine eklatante Diskrepanz zwischen theoretischem Potenzial und praktischer Anwendung: Isoliert betrachtet erreichen die Modelle bei der Identifizierung relevanter Bedingungen eine Genauigkeit von beeindruckenden 94,9 %. Sobald jedoch menschliche Probanden mit der KI interagierten, sank diese Rate auf unter 34,5 %. Damit schnitten die KI-unterstützten Nutzer sogar schlechter ab als die Kontrollgruppe, die herkömmliche Suchmethoden verwendete. Letztere hatte eine um den Faktor 1,76 höhere Chance, eine relevante Diagnose korrekt zu benennen.

Besonders kritisch für die Notfallmedizin ist die Einschätzung der Akuität. Hier zeigten die Teilnehmer – unabhängig von der Unterstützung durch GPT-4o, Llama 3 oder Command R+ – eine signifikante Tendenz zur Unterschätzung des Schweregrads ihrer Symptome. Die Treffsicherheit bei der Wahl der richtigen Versorgungsebene lag in den Interaktionsgruppen bei unter 44,2 %.

Die Ursache für dieses Versagen verorten die Autoren im sogenannten „Human-LLM Interaction Failure“. Die Analyse der Transkripte zeigt ein Kommunikationsproblem auf zwei Ebenen: Einerseits lieferten die Nutzer in 16 von 30 untersuchten Fällen initial nur unvollständige Informationen, da ihnen das medizinische Verständnis dafür fehlte, welche Symptome (z. B. die Plötzlichkeit eines Kopfschmerzes) diagnostisch wegweisend sind. Andererseits reagierten die Modelle hochgradig inkonsistent. In einem Fall erhielten zwei Nutzer mit nahezu identischen Symptomen einer Subarachnoidalblutung diametral entgegengesetzte Ratschläge: Während einem Nutzer korrekt zur Notaufnahme geraten wurde, erhielt der andere die Empfehlung, sich in einem dunklen Raum auszuruhen .

Für Ärzte ist die wichtigste Erkenntnis dieser Studie, dass standardisierte Benchmarks wie das US Medical Licensing Exam (USMLE) kein Prädiktor für die Sicherheit in der realen Patienteninteraktion sind. Selbst Modelle mit einer Benchmark-Genauigkeit von über 80 % führten in der menschlichen Anwendung teils zu klinisch korrekten Ergebnissen von unter 20 %. Auch KI-basierte Patientensimulationen konnten diese menschliche Variabilität nicht adäquat abbilden.

Fazit: Solange Modelle nicht über eine robuster deterministische Gesprächsführung verfügen und die inhärenten Bias der menschlichen Interaktion abfangen können, bleibt die ärztliche Triage durch nichts zu ersetzen.

Quelle: Bean, A. M., et al. (2026). Reliability of LLMs as medical assistants for the general public: a randomized preregistered study. Nature Medicine. https://doi.org/10.1038/s41591-025-04074-y

Text: Redaktion arztCME

Bild: Leonardo AI für arztCME

← DKK 2026: Wann endet der digitale Winter?

Weitere Beiträge …

DKK 2026: Wann endet der digitale Winter?

18. Februar 2026

In winterlichen Berlin startet heute (18. 2. 2026) der Deutsche Krebskongress. Künstliche Intelligenz (KI) gehört zu den Topthemen im Programm,...

zum Beitrag

Hörgeräte und KI

10. Februar 2026

Wir analysieren den klinischen Nutzen KI-gestützter Signalverarbeitung und bieten Ärzten einen pragmatischen Beratungsansatz für die moderne Patientenversorgung. Künstliche Intelligenz (KI)...

zum Beitrag

Ambient AI Scribing: Schräger Begriff, coole Technologie

1. Februar 2026

Anfang der Woche ging es um die ärztliche Wissensarbeit, heute geht es um das Arzt-Patienten-Gespräch. Ambient AI Scribing wird Kommunikation...

zum Beitrag

ChatGPT Health: Fokus auf Medizin

26. Januar 2026

ChatGPT Health soll ärztliche Wissensarbeit unterstützen, etwa bei der Aufbereitung medizinischer Fortbildungsinhalte. In zahlreichen Pressemeldungen wurde ChatGPT Health zwar angekündigt,...

zum Beitrag

Pränataler Ultraschall: KI als neuer Standard in der Ausbildung

19. Januar 2026

Die pränatale Ultraschalldiagnostik stellt hohe Anforderungen an Ausbildung, Erfahrung und kontinuierliche Qualitätssicherung. Die Ausbildung ist durch limitierte Übungszeit, eingeschränkte Verfügbarkeit...

zum Beitrag

Ausblick 2026: KI und Digitalisierung in der Praxis

8. Januar 2026

Für viele Praxen ist die Digitalisierung kein "spannendes Zukunftsthema", sondern vor allem mit zusätzlichen Arbeitsaufwand, Kosten und Fehlerquellen verbunden –...

zum Beitrag

Medizin in der KI-Ära – Rückblick 2025

15. Dezember 2025

War 2024 noch geprägt vom Experimentieren mit generativer KI, so stand 2025 ganz im Zeichen der Implementierung, der Regulierung und...

zum Beitrag

KI-basierte Funktionsdiagnostik in der Kardiologie

8. Dezember 2025

Die kardiovaskuläre Funktionsdiagnostik entwickelt sich zunehmend in Richtung hochauflösender, dynamischer und patientenspezifischer Verfahren. Wir haben uns eine spannende Anwendung auf...

zum Beitrag

KI beschleunigt die Diagnose seltener Erkrankungen

1. Dezember 2025

Seltene Erkrankungen schneller erkennen: Die hessische Plattform ai4rare strukturiert komplexe Akten, entlastet Teams und verkürzt den Weg zur Diagnose. Seltene...

zum Beitrag

KI im Gesundheitswesen: Zwischen Datenautobahn und Sackgasse

24. November 2025

Ein aktueller McKinsey-Report beleuchtet eine mögliche zukünftige KI-Infrastruktur im Gesundheitswesen – weg von Einzellösungen, hin zu einer modularen KI-Architektur. Kann...

zum Beitrag

Zum Blog-Archiv

MedicalLearning – Blog zur Zukunft der medizinischen Information

Selbstdiagnose: Wo die Mensch–KI-Interaktion versagt

Weitere Beiträge …

DKK 2026: Wann endet der digitale Winter?

Hörgeräte und KI

Ambient AI Scribing: Schräger Begriff, coole Technologie

ChatGPT Health: Fokus auf Medizin

Pränataler Ultraschall: KI als neuer Standard in der Ausbildung

Ausblick 2026: KI und Digitalisierung in der Praxis

Medizin in der KI-Ära – Rückblick 2025

KI-basierte Funktionsdiagnostik in der Kardiologie

KI beschleunigt die Diagnose seltener Erkrankungen

KI im Gesundheitswesen: Zwischen Datenautobahn und Sackgasse

Bitte melden Sie sich an

Noch nicht registriert?