KI-Erklärungen in der Radiologie: Besser diagnostizieren

Am 22. Mai 2026 veröffentlichte eine Forschergruppe um die Ludwig-Maximilians-Universität München eine Studie, die für die medizinische Praxis in Österreich relevant ist. Die Untersuchung zeigt, dass erklärende KI-Ausgaben die diagnostische Genauigkeit in der Radiologie signifikant verbessern können. Österreichische Kliniken, die bereits KI-Systeme testen oder einsetzen, stehen vor der Frage: Welche Form der KI-Unterstützung stärkt das Urteil von Ärztinnen und Ärzten, statt es zu verzerren? Diese Studie liefert Hinweise, warum die Form der Antwort wichtiger ist als nur die bloße Diagnose.

KI-Erklärungen verbessern medizinische Diagnosen

Ein Forschungsteam der LMU München, des LMU Klinikums, des Karlsruher Instituts für Technologie und der Universität Bayreuth hat in einem randomisierten Experiment untersucht, wie verschiedene Arten von KI-Erklärungen die diagnostische Leistung von Radiologinnen und Radiologen beeinflussen. Am 22.05.2026 publiziert, zeigt die Studie: Nicht jede Form der KI-Hilfe ist gleich hilfreich. Entscheidend ist, ob die Ärztinnen und Ärzte die Empfehlung nachvollziehen und kritisch prüfen können. Die Untersuchung nutzte reale klinische Fälle mit Bildgebung aus CT und MRT und arbeitete mit 101 Fachpersonen.

Worum geht es konkret?

Die Teilnehmenden wurden in vier Gruppen randomisiert: eine Kontrollgruppe ohne KI-Unterstützung und drei Gruppen mit jeweils unterschiedlicher KI-Ausgabe. Die KI lieferte entweder

nur eine einzelne Diagnose,
eine Differentialdiagnose-Liste oder
eine schrittweise, nachvollziehbare Begründung (sogenannte Chain-of-Thought-Erklärung).

Die zentrale Erkenntnis: Radiologinnen und Radiologen erreichten die höchste Trefferrate, wenn die KI eine schrittweise Erklärung lieferte. Die Trefferquote lag in dieser Bedingung um 12,2 Prozentpunkte über der Kontrollgruppe ohne KI-Unterstützung. Knappe Antworten oder reine Listen erzielten demgegenüber schlechtere Ergebnisse und erhöhten in einigen Fällen Automationsbias, also das unkritische Übernehmen fehlerhafter Vorschläge.

Fachbegriffe verständlich erklärt

Große Sprachmodelle (Large Language Models, LLMs): Große Sprachmodelle sind rechnerbasierte Systeme, die auf riesigen Textmengen trainiert wurden, um Sprache zu verstehen und zu erzeugen. Sie nutzen statistische Muster, um auf Eingaben passende Ausgaben zu erzeugen, zum Beispiel Erklärungen, Zusammenfassungen oder Diagnosevorschläge. Für den medizinischen Einsatz ist wichtig zu wissen: LLMs besitzen kein medizinisches Bewusstsein oder eigenes Fachwissen im menschlichen Sinne, sondern geben auf Basis von Trainingsdaten wahrscheinliche Formulierungen wieder. Ihre Stärke liegt in der Verarbeitung und Aufbereitung großer Text- und Bildmengen, ihre Schwäche ist, dass sie plausibel klingende, aber falsche Aussagen erzeugen können.

Differentialdiagnose: Eine Differentialdiagnose ist die systematische Auflistung mehrerer möglicher Ursachen für einen klinischen Befund, geordnet nach Wahrscheinlichkeit und Relevanz. In der Praxis dient sie dazu, unterschiedliche Krankheitsbilder gegeneinander abzuwiegen und weitere Untersuchungen zu planen. Die Differentialdiagnose hilft, Trugschlüsse zu vermeiden, kann aber auch irreführend sein, wenn sie unvollständig oder übermäßig umfangreich ist, denn sie kann den Eindruck erwecken, relevante Alternativen seien bereits abgedeckt.

Chain-of-Thought (Schritt-für-Schritt-Erklärung): Chain-of-Thought ist ein Erklärungsstil von KI-Systemen, bei dem das Modell die zugrunde liegende Argumentationskette offenlegt. Statt nur eine Schlussfolgerung zu nennen, beschreibt das System Zwischenschritte, beobachtete Merkmale, Ausschlusskriterien und den Abgleich mit klinischen Hinweisen. Für Ärztinnen und Ärzte ist das bedeutsam, weil so die Logik des Systems nachvollzogen und mit dem eigenen Wissen abgeglichen werden kann. Das erhöht die Transparenz und verringert das Risiko, überzeugend formulierte Fehler unkritisch zu übernehmen.

Computertomographie (CT): Die Computertomographie ist ein bildgebendes Verfahren, das Querschnittsbilder des Körpers erzeugt. Mit Hilfe von Röntgenstrahlen und Computerberechnung lassen sich Strukturen in hoher Detaillierung darstellen. CT-Bilder sind in der Notfall- und Tumordiagnostik zentral, liefern aber auch artefaktbehaftete Informationen, die Fachwissen für die richtige Interpretation verlangen. CT-Bilder können durch Bildstörungen, Kontrastmittel und Patientenbewegung beeinflusst werden, weshalb Befundinterpretation Erfahrung und Kontextwissen verlangt.

Magnetresonanztomographie (MRT): Die Magnetresonanztomographie nutzt Magnetfelder und Radiowellen, um detaillierte Bilder des Körpers, besonders von Weichteilen wie Gehirn, Rückenmark und Gelenken, zu erzeugen. MRT-Bilder bieten hohe Kontraste zwischen Gewebearten, erfordern aber spezifische Protokolle und Erfahrung in der Interpretation. Die Komplexität der Bilddaten macht MRT zu einem Bereich, in dem erklärungsfähige KI-Unterstützung potenziell großen Mehrwert bietet.

Automationsbias: Automationsbias beschreibt das Phänomen, dass Menschen automatischen Systemen oder deren Vorschlägen zu viel Vertrauen schenken und eigene Prüfungen vernachlässigen. In der Medizin kann das dazu führen, dass fehlerhafte KI-Vorschläge übernommen werden, weil sie plausibel klingen oder die Fachperson die Empfehlung nicht ausreichend hinterfragt. Maßnahmen gegen Automationsbias umfassen transparente Erklärungen, Trainings und Arbeitsabläufe, die aktives Überprüfen fordern.

Historische Einordnung und Entwicklung

Die Nutzung von Computerunterstützung in der Medizin hat eine lange Tradition: Schon seit den 1970er-Jahren existieren regelbasierte Entscheidungssysteme und Expertensysteme, die Ärzte bei Diagnosen unterstützen sollten. Diese Systeme basierten auf festen Regeln und waren in ihrem Anwendungsumfang eng begrenzt. In den 2000er-Jahren brachte der Fortschritt in der Bildverarbeitung erste datengetriebene Ansätze, vor allem durch maschinelles Lernen und neuronale Netze. In der Radiologie haben sich diese Methoden in den letzten zehn bis fünfzehn Jahren rasant entwickelt: Algorithmen helfen bei der Detektion von Lungenrundherden, der Segmentierung von Organen und der Quantifizierung von Befunden.

Mit dem Aufkommen großer Sprachmodelle wie GPT-3, später GPT-4 und darauf aufbauender multimodaler Modelle, verschob sich der Fokus: Sprachmodelle können nicht nur Text verarbeiten, sondern auch Bildinformationen integrieren und komplexe kontextuelle Erklärungen generieren. Die neue Studie setzt genau hier an und untersucht, welche Darstellungsform von KI-Antworten für diagnostische Aufgaben am förderlichsten ist. In Österreich wächst die Diskussion um den klinischen Einsatz von KI: Krankenhäuser und Forschungseinrichtungen testen Assistenzsysteme, während Politik und Berufsverbände Anforderungen an Transparenz, Haftung und Datenschutz formulieren.

Zahlen, Fakten und ihre Bedeutung

Wesentliche, in der Studie genannte Zahlen sind:

Anzahl der Teilnehmenden: 101 Radiologinnen und Radiologen.
Design: Randomisiertes Experiment mit vier Gruppen (Kontrolle, Diagnose-only, Differentialdiagnose, Chain-of-Thought).
Messung: Diagnostische Trefferrate bei realen klinischen Fällen.
Ergebnis: Schrittweise Erklärungen führten zu einer um 12,2 Prozentpunkte höheren Trefferrate gegenüber der Kontrollgruppe ohne KI.

Was bedeutet ein Anstieg um 12,2 Prozentpunkte? Ohne Kenntnis der Basisrate lässt sich nicht exakt ausrechnen, wie viele zusätzliche Fälle korrekt diagnostiziert wurden. Dennoch ist ein Plus von zwölf Prozentpunkten in diagnostischen Studien bedeutsam: Es weist auf einen klinisch relevanten Effekt hin, der potenziell die Genauigkeit und Sicherheit in der Bildbefundung verbessern kann. Entscheidend bleibt, dass dieser Vorteil offenbar an die Form der Erklärung gekoppelt ist und nicht allein an der algorithmischen Leistung der Diagnose.

Die Studie dokumentiert zudem, dass einfache Listen mit Differentialdiagnosen und knappe Ein-Wort-Antworten Automationsbias begünstigen können. Das ist eine warnende Zahl, denn in der Praxis werden oft knapp formulierte Entscheidungshilfen eingesetzt. Die Analyse legt nahe, dass Kliniken bei der Auswahl von KI-Systemen nicht nur auf die Roh-Performance, sondern auch auf die Darstellungsform der Ergebnisse achten sollten.

Auswirkungen und Einordnung

Die Ergebnisse haben direkte Auswirkungen auf Patientinnen und Patienten sowie auf das Personal in österreichischen Gesundheitseinrichtungen. Konkret bedeutet dies:

Höhere Diagnosesicherheit: Wenn Radiologinnen und Radiologen schrittweise erklärende KI-Hinweise nutzen, können Fehlinterpretationen seltener werden. Das reduziert potenziell Fehldiagnosen und unnötige Folgeuntersuchungen.
Arbeitsablauf: Kliniken müssen entscheiden, wie KI-Ausgaben in Befundungsprozesse integriert werden. Schritt-für-Schritt-Erklärungen erfordern etwas mehr Lese- und Interpretationsaufwand, können aber langfristig die Arbeitsqualität erhöhen.
Vertrauen und Kommunikation: Patienten profitieren indirekt, weil Ärzteschaftsentscheidungen transparenter werden. Ärztinnen und Ärzte können die KI-Argumentation als Diskussionsgrundlage mit Kolleginnen, Kollegen und Betroffenen nutzen.

Beispiel 1: Ein mittleres Landeskrankenhaus in Österreich führt ein KI-Assistenzsystem ein, das bei der Befundung von CT-Thorax-Scans knappe Diagnosevorschläge macht. Ohne erläuternde Zwischenschritte übernehmen weniger erfahrene Radiologinnen und Radiologen solche Vorschläge häufiger. Würde dasselbe System stattdessen schrittweise Begründungen liefern, könnten die Ärztinnen und Ärzte die Hinweise besser prüfen und zielgerichtete Nachfragen anfordern.

Beispiel 2: In der ambulanten Vorstellung eines Patienten mit unklarem Kopfschmerz unterstützt ein KI-System mit MRT-Interpretation. Eine Differentialdiagnose-Liste könnte die diagnostische Suche verengen, während eine Chain-of-Thought-Erklärung die Logik offenlegt und zusätzliche Hypothesen fördert.

Weiterer Kontext und Grenzen der Studie

Die Studie fokussiert auf Radiologinnen und Radiologen und basiert auf realen klinischen Fällen; dennoch gibt es Grenzen. Ergebnisse aus einem randomisierten Experiment sind wertvoll, aber die Übertragung auf den klinischen Alltag erfordert Feldstudien mit größeren Stichproben und unterschiedlichen hospitalen Rahmenbedingungen. Außerdem hängen Effektstärken von der konkreten Implementierung und der Datenqualität ab. Internationaler Vergleich und Validierung an heterogenen Datensätzen sind notwendige nächste Schritte.

Quellen und Weiterführendes

Die Studie: Philipp Spitzer et al., 'The effect of medical explanations from large language models on diagnostic accuracy in radiology', npj Digital Medicine, Volume 9, Article 33, 2026. Verfügbar unter: https://www.nature.com/articles/s41746-026-02619-0. Weitere Infos zur Studie und Kontaktangaben finden sich in der Originalmeldung der Ludwig-Maximilians-Universität München.

Lesen Sie auch auf pressefeuer.at: KI in der Medizin: Chancen und Risiken, Radiologie: Neuerungen in der Bildgebung, Ethik und Recht bei KI im Gesundheitswesen.

Fazit und Ausblick

Die LMU-Studie vom 22.05.2026 zeigt klar: Erklärungsfähige KI kann die diagnostische Genauigkeit in der Radiologie verbessern — vorausgesetzt, die Ausgaben sind nachvollziehbar und prüfbar. Für Österreich bedeutet das eine Empfehlung an Kliniken, Anbieter und Regulierer: Nicht nur auf „was“ schauen, sondern auf „wie“ präsentiert wird. Die Integration erklärender KI-Module, begleitete Schulungen und eine klare Dokumentation können dazu beitragen, dass KI im medizinischen Alltag zu einem echten Mehrwert wird, ohne die Sicherheitsrisiken durch Automationsbias zu vergrößern.

Wie stehen Sie zu erklärenden KI-Systemen in der Medizin? Sollte die österreichische Gesundheitspolitik verbindliche Vorgaben zur Form von KI-Erklärungen festlegen, oder sind flexible, klinikspezifische Lösungen sinnvoller? Weiterführende Informationen liefert die Originalpublikation der LMU: https://www.nature.com/articles/s41746-026-02619-0.

KI-Erklärungen in der Radiologie: Besser diagnostizieren

KI-Erklärungen verbessern medizinische Diagnosen

Worum geht es konkret?

Fachbegriffe verständlich erklärt

Historische Einordnung und Entwicklung

Zahlen, Fakten und ihre Bedeutung

Auswirkungen und Einordnung

Weiterer Kontext und Grenzen der Studie

Quellen und Weiterführendes

Fazit und Ausblick

Schlagworte

Weitere Meldungen

VALETTA investiert 7 Mio. Euro in Produktionsstätte in Linz

Energieautonomie 2050: Tirol setzt auf Ökostrom und Bioenergie

Volkshilfe NÖ schickt 45 Kinder in integrative Ferien