Künstliche Intelligenz in der Medizin ist längst kein Zukunftsszenario mehr. Sie liest Röntgenbilder, strukturiert Arztbriefe, schlägt Differenzialdiagnosen vor und unterstützt bei der Leitlinienrecherche. Neu ist jedoch die nächste Eskalationsstufe: KI-Systeme sollen nicht mehr nur einzelne Aufgaben übernehmen, sondern klinische Prozesse über längere Verläufe hinweg begleiten – von der Anamnese über Diagnostik und Therapieplanung bis zur Aufnahmeentscheidung.
Zwei aktuelle Nature-Arbeiten zeigen, wie weit diese Entwicklung bereits ist. Das in Heidelberg und Dresden entwickelte System MIRA arbeitet in einer simulierten elektronischen Patientenakte (LINK). Es kann Patientenhistorien erheben, Labor-, Bildgebungs- und mikrobiologische Untersuchungen anfordern, Befunde interpretieren, Differenzialdiagnosen erstellen und Therapieentscheidungen vorbereiten – inklusive Medikationsvorschlägen, Prozeduren und Aufnahmeplanung. In Simulationen auf Basis realer Patientendaten erreichte MIRA eine diagnostische Leistung auf ärztlichem Niveau oder darüber. Die Autor betonen jedoch ausdrücklich: Getestet wurde in einer kontrollierten, „sandkastenartigen“ Umgebung, nicht im klinischen Alltag.
Ähnlich ambitioniert ist AMIE, ein von Google entwickeltes dialogorientiertes KI-System für das Disease Management (LINK). AMIE wurde in einer randomisierten, verblindeten virtuellen OSCE-Studie mit 21 Hausärztinnen und Hausärzten verglichen. Grundlage waren 100 Mehrfachkontakt-Szenarien über verschiedene medizinische Fachgebiete hinweg. Das Ergebnis ist bemerkenswert: AMIE war den Ärzt im Management Reasoning nicht unterlegen und schnitt insbesondere bei der Präzision von Diagnostik- und Therapieempfehlungen sowie bei der Leitlinienanbindung besser ab. Auch bei anspruchsvollen Fragen zur Arzneimitteltherapie war AMIE überlegen – allerdings blieb die Gesamtleistung selbst im offenen Setting mit Zugriff auf externe Arzneimittelinformationen deutlich unter Perfektion.
Genau hier beginnt die eigentliche Diskussion. Denn aus hoher Testleistung folgt noch keine bessere Versorgung. Adam Rodman, Internist am Beth Israel Deaconess Medical Center und KI-Forscher an der Harvard Medical School, bringt in einem SPIEGEL-Interview (LINK) eine zentrale klinische Erfahrung auf den Punkt: KI kann bei ungewöhnlichen Fällen enorm hilfreich sein. Sie kann eine seltene Differenzialdiagnose früh ins Spiel bringen, einen kognitiven Bias durchbrechen oder eine übersehene Arzneimittelreaktion sichtbar machen. Aber sie verbessert die Versorgung nicht automatisch. Entscheidend ist die Mensch-Maschine-Interaktion.
Das Risiko liegt weniger darin, dass KI grundsätzlich „dumm“ wäre. Es liegt darin, dass sie plausibel klingt – auch wenn sie falsch liegt. Sprachmodelle können halluzinieren, sie können erfundene Befunde oder Quellen mit hoher sprachlicher Sicherheit präsentieren. Hinzu kommt ein subtileres Problem: Modelle neigen zur Bestätigung. Wird eine Frage suggestiv gestellt, kann die KI die implizite Annahme verstärken. Für die Medizin ist das gefährlich, weil es bestehende Fehlannahmen stabilisieren kann. Die klinische Kunst besteht deshalb nicht darin, die KI nach einer Bestätigung zu fragen, sondern sie neutral als kognitives Gegenüber einzusetzen.
Für Ärztinnen und Ärzte bedeutet das: KI darf nicht als Ersatz für klinisches Denken missverstanden werden. Sie ist eher ein zusätzlicher diagnostischer Resonanzraum. Besonders nützlich kann sie werden, wenn Befundkonstellationen nicht zum erwarteten Muster passen, wenn mehrere Leitlinien gleichzeitig berücksichtigt werden müssen oder wenn komplexe Verläufe über mehrere Kontakte hinweg synthetisiert werden sollen. Gerade dort, wo klinische Versorgung fragmentiert ist, könnte ein gut regulierter KI-Copilot Kontinuität schaffen.
Die Nebenwirkungen sind jedoch erheblich. Erstens besteht das Risiko des Automation Bias: Empfehlungen werden übernommen, weil sie technisch und sprachlich überzeugend wirken. Zweitens droht ein Kompetenzproblem in der Ausbildung. Wenn junge Ärztinnen und Ärzte von Beginn an KI-Systeme nutzen, stellt sich die Frage, ob sie die erforderlichen diagnostischen und pathophysiologischen Grundfähigkeiten in gleicher Tiefe entwickeln. Drittens ist die Haftungsfrage offen. Solange generative KI nicht klar reguliert ist, bleibt die ärztliche Verantwortung bestehen. Viertens hinkt die Regulierung der technischen Entwicklung hinterher. Klassische Konzepte von „Software als Medizinprodukt“ erfassen adaptive, generative Systeme nur unzureichend.
Die beiden Nature-Arbeiten sind deshalb weniger ein Beweis für den unmittelbar bevorstehenden „KI-Arzt“ als vielmehr ein Weckruf. Sie zeigen, dass agentische Systeme klinische Workflows erstaunlich realistisch abbilden können. Sie zeigen aber auch, dass der Weg in die Versorgung nur über prospektive Studien, klare Governance-Strukturen, Auditierbarkeit, Datenschutz, Interoperabilität und definierte Verantwortlichkeiten führen kann.
Die wichtigste Botschaft lautet: KI wird die Medizin nicht dadurch verbessern, dass sie Ärztinnen und Ärzte ersetzt. Ihr Potenzial liegt darin, klinische Entscheidungen transparenter, leitliniennäher und konsistenter zu machen – sofern sie kritisch eingesetzt wird. Die entscheidende Frage lautet also nicht: Kann KI Medizin? Sondern: Unter welchen Bedingungen macht sie Medizin sicherer? Bis dahin gilt: KI kann ein starker Copilot sein. Aber sie darf nicht allein fliegen.
Text: Reinhard Merz
Bild: openAI für arztCME



