PRESSEFEUER
StartseiteFeaturesPreiseTools
Zurück zum Newsroom
Künstliche Intelligenz/Sprachmodelle/medizinische Diagnose/Studie/Gesundheitspersonal/Medizin, Gesun

KI-Erklärungen in der Radiologie: Besser diagnostizieren

22. Mai 2026
Teilen:

Am 22. Mai 2026 veröffentlichte eine Forschergruppe um die Ludwig-Maximilians-Universität München eine Studie, die für die medizinische Praxis in Österreich relevant ist. Die Untersuchung zeigt, da...

Am 22. Mai 2026 veröffentlichte eine Forschergruppe um die Ludwig-Maximilians-Universität München eine Studie, die für die medizinische Praxis in Österreich relevant ist. Die Untersuchung zeigt, dass erklärende KI-Ausgaben die diagnostische Genauigkeit in der Radiologie signifikant verbessern können. Österreichische Kliniken, die bereits KI-Systeme testen oder einsetzen, stehen vor der Frage: Welche Form der KI-Unterstützung stärkt das Urteil von Ärztinnen und Ärzten, statt es zu verzerren? Diese Studie liefert Hinweise, warum die Form der Antwort wichtiger ist als nur die bloße Diagnose.

KI-Erklärungen verbessern medizinische Diagnosen

Ein Forschungsteam der LMU München, des LMU Klinikums, des Karlsruher Instituts für Technologie und der Universität Bayreuth hat in einem randomisierten Experiment untersucht, wie verschiedene Arten von KI-Erklärungen die diagnostische Leistung von Radiologinnen und Radiologen beeinflussen. Am 22.05.2026 publiziert, zeigt die Studie: Nicht jede Form der KI-Hilfe ist gleich hilfreich. Entscheidend ist, ob die Ärztinnen und Ärzte die Empfehlung nachvollziehen und kritisch prüfen können. Die Untersuchung nutzte reale klinische Fälle mit Bildgebung aus CT und MRT und arbeitete mit 101 Fachpersonen.

Worum geht es konkret?

Die Teilnehmenden wurden in vier Gruppen randomisiert: eine Kontrollgruppe ohne KI-Unterstützung und drei Gruppen mit jeweils unterschiedlicher KI-Ausgabe. Die KI lieferte entweder

  • nur eine einzelne Diagnose,
  • eine Differentialdiagnose-Liste oder
  • eine schrittweise, nachvollziehbare Begründung (sogenannte Chain-of-Thought-Erklärung).

Die zentrale Erkenntnis: Radiologinnen und Radiologen erreichten die höchste Trefferrate, wenn die KI eine schrittweise Erklärung lieferte. Die Trefferquote lag in dieser Bedingung um 12,2 Prozentpunkte über der Kontrollgruppe ohne KI-Unterstützung. Knappe Antworten oder reine Listen erzielten demgegenüber schlechtere Ergebnisse und erhöhten in einigen Fällen Automationsbias, also das unkritische Übernehmen fehlerhafter Vorschläge.

Fachbegriffe verständlich erklärt

Große Sprachmodelle (Large Language Models, LLMs): Große Sprachmodelle sind rechnerbasierte Systeme, die auf riesigen Textmengen trainiert wurden, um Sprache zu verstehen und zu erzeugen. Sie nutzen statistische Muster, um auf Eingaben passende Ausgaben zu erzeugen, zum Beispiel Erklärungen, Zusammenfassungen oder Diagnosevorschläge. Für den medizinischen Einsatz ist wichtig zu wissen: LLMs besitzen kein medizinisches Bewusstsein oder eigenes Fachwissen im menschlichen Sinne, sondern geben auf Basis von Trainingsdaten wahrscheinliche Formulierungen wieder. Ihre Stärke liegt in der Verarbeitung und Aufbereitung großer Text- und Bildmengen, ihre Schwäche ist, dass sie plausibel klingende, aber falsche Aussagen erzeugen können.

Differentialdiagnose: Eine Differentialdiagnose ist die systematische Auflistung mehrerer möglicher Ursachen für einen klinischen Befund, geordnet nach Wahrscheinlichkeit und Relevanz. In der Praxis dient sie dazu, unterschiedliche Krankheitsbilder gegeneinander abzuwiegen und weitere Untersuchungen zu planen. Die Differentialdiagnose hilft, Trugschlüsse zu vermeiden, kann aber auch irreführend sein, wenn sie unvollständig oder übermäßig umfangreich ist, denn sie kann den Eindruck erwecken, relevante Alternativen seien bereits abgedeckt.

Chain-of-Thought (Schritt-für-Schritt-Erklärung): Chain-of-Thought ist ein Erklärungsstil von KI-Systemen, bei dem das Modell die zugrunde liegende Argumentationskette offenlegt. Statt nur eine Schlussfolgerung zu nennen, beschreibt das System Zwischenschritte, beobachtete Merkmale, Ausschlusskriterien und den Abgleich mit klinischen Hinweisen. Für Ärztinnen und Ärzte ist das bedeutsam, weil so die Logik des Systems nachvollzogen und mit dem eigenen Wissen abgeglichen werden kann. Das erhöht die Transparenz und verringert das Risiko, überzeugend formulierte Fehler unkritisch zu übernehmen.

Computertomographie (CT): Die Computertomographie ist ein bildgebendes Verfahren, das Querschnittsbilder des Körpers erzeugt. Mit Hilfe von Röntgenstrahlen und Computerberechnung lassen sich Strukturen in hoher Detaillierung darstellen. CT-Bilder sind in der Notfall- und Tumordiagnostik zentral, liefern aber auch artefaktbehaftete Informationen, die Fachwissen für die richtige Interpretation verlangen. CT-Bilder können durch Bildstörungen, Kontrastmittel und Patientenbewegung beeinflusst werden, weshalb Befundinterpretation Erfahrung und Kontextwissen verlangt.

Magnetresonanztomographie (MRT): Die Magnetresonanztomographie nutzt Magnetfelder und Radiowellen, um detaillierte Bilder des Körpers, besonders von Weichteilen wie Gehirn, Rückenmark und Gelenken, zu erzeugen. MRT-Bilder bieten hohe Kontraste zwischen Gewebearten, erfordern aber spezifische Protokolle und Erfahrung in der Interpretation. Die Komplexität der Bilddaten macht MRT zu einem Bereich, in dem erklärungsfähige KI-Unterstützung potenziell großen Mehrwert bietet.

Automationsbias: Automationsbias beschreibt das Phänomen, dass Menschen automatischen Systemen oder deren Vorschlägen zu viel Vertrauen schenken und eigene Prüfungen vernachlässigen. In der Medizin kann das dazu führen, dass fehlerhafte KI-Vorschläge übernommen werden, weil sie plausibel klingen oder die Fachperson die Empfehlung nicht ausreichend hinterfragt. Maßnahmen gegen Automationsbias umfassen transparente Erklärungen, Trainings und Arbeitsabläufe, die aktives Überprüfen fordern.

Historische Einordnung und Entwicklung

Die Nutzung von Computerunterstützung in der Medizin hat eine lange Tradition: Schon seit den 1970er-Jahren existieren regelbasierte Entscheidungssysteme und Expertensysteme, die Ärzte bei Diagnosen unterstützen sollten. Diese Systeme basierten auf festen Regeln und waren in ihrem Anwendungsumfang eng begrenzt. In den 2000er-Jahren brachte der Fortschritt in der Bildverarbeitung erste datengetriebene Ansätze, vor allem durch maschinelles Lernen und neuronale Netze. In der Radiologie haben sich diese Methoden in den letzten zehn bis fünfzehn Jahren rasant entwickelt: Algorithmen helfen bei der Detektion von Lungenrundherden, der Segmentierung von Organen und der Quantifizierung von Befunden.

Mit dem Aufkommen großer Sprachmodelle wie GPT-3, später GPT-4 und darauf aufbauender multimodaler Modelle, verschob sich der Fokus: Sprachmodelle können nicht nur Text verarbeiten, sondern auch Bildinformationen integrieren und komplexe kontextuelle Erklärungen generieren. Die neue Studie setzt genau hier an und untersucht, welche Darstellungsform von KI-Antworten für diagnostische Aufgaben am förderlichsten ist. In Österreich wächst die Diskussion um den klinischen Einsatz von KI: Krankenhäuser und Forschungseinrichtungen testen Assistenzsysteme, während Politik und Berufsverbände Anforderungen an Transparenz, Haftung und Datenschutz formulieren.

Vergleich: Österreich, andere Bundesländer, Deutschland und Schweiz

In Österreich wird der Einsatz von KI im Gesundheitswesen regional unterschiedlich vorangetrieben: Universitätskliniken und einige Landeskliniken testen Assistenzsysteme, während kleinere Häuser oft noch abwartend sind. Im Vergleich zu deutschen Universitätskliniken, die teils große IT-Infrastruktur und dedizierte KI-Labore betreiben, ist die Verteilung in Österreich enger und heterogener. Deutschland verfolgt parallel eine starke Förderung von Medizin-IT-Projekten auf Landes- und Bundesebene, während in der Schweiz die Kooperation zwischen Kliniken und Industrie traditionell eng ist und in einigen Kantonen bereits strukturierte Projekte zur Integration von KI in den klinischen Alltag laufen.

Ein konkreter Unterschied liegt in der Skalierung: In großen deutschen Zentren können KI-Modelle an größeren, diverseren Datensätzen trainiert und validiert werden, was die Generalisierbarkeit erhöht. Kleine österreichische Kliniken profitieren hingegen von praxisnahen, klinisch fokussierten Studien wie der vorgestellten LMU-Untersuchung, weil sie konkrete Hinweise liefern, wie KI-Angebote gestaltet sein sollten, damit sie Ärztinnen und Ärzten wirklich helfen. Für die Schweiz bleibt die Herausforderung, regionale Datenschutzregelungen und die föderale Struktur mit gemeinsamer Forschung zu verbinden.

Zahlen, Fakten und ihre Bedeutung

Wesentliche, in der Studie genannte Zahlen sind:

  • Anzahl der Teilnehmenden: 101 Radiologinnen und Radiologen.
  • Design: Randomisiertes Experiment mit vier Gruppen (Kontrolle, Diagnose-only, Differentialdiagnose, Chain-of-Thought).
  • Messung: Diagnostische Trefferrate bei realen klinischen Fällen.
  • Ergebnis: Schrittweise Erklärungen führten zu einer um 12,2 Prozentpunkte höheren Trefferrate gegenüber der Kontrollgruppe ohne KI.

Was bedeutet ein Anstieg um 12,2 Prozentpunkte? Ohne Kenntnis der Basisrate lässt sich nicht exakt ausrechnen, wie viele zusätzliche Fälle korrekt diagnostiziert wurden. Dennoch ist ein Plus von zwölf Prozentpunkten in diagnostischen Studien bedeutsam: Es weist auf einen klinisch relevanten Effekt hin, der potenziell die Genauigkeit und Sicherheit in der Bildbefundung verbessern kann. Entscheidend bleibt, dass dieser Vorteil offenbar an die Form der Erklärung gekoppelt ist und nicht allein an der algorithmischen Leistung der Diagnose.

Die Studie dokumentiert zudem, dass einfache Listen mit Differentialdiagnosen und knappe Ein-Wort-Antworten Automationsbias begünstigen können. Das ist eine warnende Zahl, denn in der Praxis werden oft knapp formulierte Entscheidungshilfen eingesetzt. Die Analyse legt nahe, dass Kliniken bei der Auswahl von KI-Systemen nicht nur auf die Roh-Performance, sondern auch auf die Darstellungsform der Ergebnisse achten sollten.

Bürger-Impact: Konkrete Auswirkungen und Beispiele

Die Ergebnisse haben direkte Auswirkungen auf Patientinnen und Patienten sowie auf das Personal in österreichischen Gesundheitseinrichtungen. Konkret bedeutet dies:

  • Höhere Diagnosesicherheit: Wenn Radiologinnen und Radiologen schrittweise erklärende KI-Hinweise nutzen, können Fehlinterpretationen seltener werden. Das reduziert potenziell Fehldiagnosen und unnötige Folgeuntersuchungen.
  • Arbeitsablauf: Kliniken müssen entscheiden, wie KI-Ausgaben in Befundungsprozesse integriert werden. Schritt-für-Schritt-Erklärungen erfordern etwas mehr Lese- und Interpretationsaufwand, können aber langfristig die Arbeitsqualität erhöhen.
  • Vertrauen und Kommunikation: Patienten profitieren indirekt, weil Ärzteschaftsentscheidungen transparenter werden. Ärztinnen und Ärzte können die KI-Argumentation als Diskussionsgrundlage mit Kolleginnen, Kollegen und Betroffenen nutzen.

Beispiel 1: Ein mittleres Landeskrankenhaus in Österreich führt ein KI-Assistenzsystem ein, das bei der Befundung von CT-Thorax-Scans knappe Diagnosevorschläge macht. Ohne erläuternde Zwischenschritte übernehmen weniger erfahrene Radiologinnen und Radiologen solche Vorschläge häufiger. Würde dasselbe System stattdessen schrittweise Begründungen liefern, könnten die Ärztinnen und Ärzte die Hinweise besser prüfen und zielgerichtete Nachfragen anfordern.

Beispiel 2: In der ambulanten Vorstellung eines Patienten mit unklarem Kopfschmerz unterstützt ein KI-System mit MRT-Interpretation. Eine Differentialdiagnose-Liste könnte die diagnostische Suche verengen, während eine Chain-of-Thought-Erklärung die Logik offenlegt und zusätzliche Hypothesen fördert.

Zukunftsperspektive: Wie geht es weiter?

Die Studie legt nahe, dass künftige KI-Systeme in der Medizin nicht allein nach Genauigkeit bewertet werden dürfen. Die Form der Erklärung ist ein entscheidender Qualitätsindikator. Für die nächsten Schritte sind aus klinischer, regulatorischer und technologischer Sicht mehrere Maßnahmen denkbar:

  • Integration erklärender Module: Anbieter sollten Chain-of-Thought-ähnliche Erklärungen als Standardoption anbieten und diese an die klinische Terminologie einzelner Fachdisziplinen anpassen.
  • Schulung und Arbeitsprozesse: Ärztinnen und Ärzte benötigen Trainings, um KI-Erklärungen systematisch zu hinterfragen und nicht in Automationsfallen zu geraten.
  • Regulatorik und Dokumentation: Für Österreich sind klare Vorgaben nötig, wie KI-Erklärungen dokumentiert werden müssen, um Haftungsfragen und Nachvollziehbarkeit zu sichern.

Technologisch wird die Herausforderung darin bestehen, Erklärungen robust, prägnant und zugleich überprüfbar zu gestalten. Forschende und Hersteller müssen daran arbeiten, dass Erklärungen nicht nur plausibel klingen, sondern auch mit den zugrundeliegenden Daten und Unsicherheiten begleitet werden. Politisch und administrativ ist zu überlegen, wie Fördermittel und Infrastrukturprojekte Kliniken dabei unterstützen, erklärungsfähige KI-Systeme verantwortungsvoll zu integrieren.

Weiterer Kontext und Grenzen der Studie

Die Studie fokussiert auf Radiologinnen und Radiologen und basiert auf realen klinischen Fällen; dennoch gibt es Grenzen. Ergebnisse aus einem randomisierten Experiment sind wertvoll, aber die Übertragung auf den klinischen Alltag erfordert Feldstudien mit größeren Stichproben und unterschiedlichen hospitalen Rahmenbedingungen. Außerdem hängen Effektstärken von der konkreten Implementierung und der Datenqualität ab. Internationaler Vergleich und Validierung an heterogenen Datensätzen sind notwendige nächste Schritte.

Quellen und Weiterführendes

Die Studie: Philipp Spitzer et al., 'The effect of medical explanations from large language models on diagnostic accuracy in radiology', npj Digital Medicine, Volume 9, Article 33, 2026. Verfügbar unter: https://www.nature.com/articles/s41746-026-02619-0. Weitere Infos zur Studie und Kontaktangaben finden sich in der Originalmeldung der Ludwig-Maximilians-Universität München.

Lesen Sie auch auf pressefeuer.at: KI in der Medizin: Chancen und Risiken, Radiologie: Neuerungen in der Bildgebung, Ethik und Recht bei KI im Gesundheitswesen.

Fazit und Ausblick

Die LMU-Studie vom 22.05.2026 zeigt klar: Erklärungsfähige KI kann die diagnostische Genauigkeit in der Radiologie verbessern — vorausgesetzt, die Ausgaben sind nachvollziehbar und prüfbar. Für Österreich bedeutet das eine Empfehlung an Kliniken, Anbieter und Regulierer: Nicht nur auf „was“ schauen, sondern auf „wie“ präsentiert wird. Die Integration erklärender KI-Module, begleitete Schulungen und eine klare Dokumentation können dazu beitragen, dass KI im medizinischen Alltag zu einem echten Mehrwert wird, ohne die Sicherheitsrisiken durch Automationsbias zu vergrößern.

Wie stehen Sie zu erklärenden KI-Systemen in der Medizin? Sollte die österreichische Gesundheitspolitik verbindliche Vorgaben zur Form von KI-Erklärungen festlegen, oder sind flexible, klinikspezifische Lösungen sinnvoller? Weiterführende Informationen liefert die Originalpublikation der LMU: https://www.nature.com/articles/s41746-026-02619-0.

Weitere Meldungen

OTS
Künstliche Intelligenz

KI-Erklärungen verbessern Diagnosen in der Radiologie

22. Mai 2026
Lesen
OTS
Künstliche Intelligenz

Last Loop: Wiener KI-Startup launcht neue Business-Plattform

16. Apr. 2026
Lesen
OTS
Lange Nacht der Forschung

DPU macht Forschung bei Langer Nacht der Forschung erlebbar

14. Apr. 2026
Lesen
Alle Meldungen anzeigen
PRESSEFEUER

Die moderne Plattform für digitale Pressemitteilungen in Österreich.

Produkt

  • Features
  • Preise
  • API

Unternehmen

  • Über uns
  • Kontakt

Rechtliches

  • Impressum
  • Datenschutz
  • AGB

© 2026 Pressefeuer.at. Powered by AdSimple.