Besonders große Hoffnungen auf Durchbrüche dank künstlicher Intelligenz (KI) setzt man innerhalb der Medizin. Zu konkreten Anwendungsfeldern zählen unter anderem die Entwicklung von Medikamenten und das Stellen von Diagnosen. Letzteres war jüngst Gegenstand der Studie eines internationalen Teams unter Leitung des Max-Planck-Instituts für Bildungsforschung, die untersucht hat, was von der Kombination aus menschlicher und maschineller Diagnostik zu erwarten ist.
Anhand der Untersuchung von mehr als 2.100 realitätsnahen medizinischen Fallvignetten mit über 40.000 ärztlichen und maschinellen Diagnosen konnte das Team, zu dem Forschende vom Human Diagnosis Project (San Francisco) und dem Institute for Cognitive Sciences and Technologies des italienischen Nationalen Forschungsrats (CNR-ISTC, Rom) gehörten, erstmals systematisch zeigen, dass die Kombination aus menschlicher Expertise und KI-Modellen die Diagnosequalität spürbar verbessert. Dafür reicht schon das Hinzufügen eines einzelnen KI-Modells.
Verschiedene Fehler gleichen sich aus
Für die besten Ergebnisse sorgen offenbar hybride kollektive Entscheidungen, die von mehreren Menschen und Maschinen getroffen werden. Der Erklärungsansatz: Künstliche Intelligenz macht andere Fehler als Menschen. In dieser Fehlerkomplementarität erkennen die Forschenden eine bislang ungenutzte Stärke. Und tatsächlich sind Diagnosefehler eines der folgenschwersten Probleme im medizinischen Alltag.
Als risikoreich wird dementsprechend angesehen, dass sogenannte große Sprachmodelle (Large Language Models) wie ChatGPT-4, Gemini oder Claude 3 auf der einen Seite „halluzinieren“ und falsche Informationen generieren können – sowie auf der anderen Seite mitunter von Vorurteilen (Bias) verleitet werden.
Potenzial zur Verbesserung der Patientensicherheit
Mensch-KI-Kollektive können demgegenüber zu deutlich genaueren Ergebnissen kommen – genauer als rein menschliche Teams und reine KI-Kollektive. Das gilt insbesondere dann, wenn es nicht um einfache Ja-Nein-Entscheidungen geht, sondern um komplexe diagnostische Fragestellungen mit einer Vielzahl möglicher Lösungen.
„Unsere Ergebnisse zeigen, dass die Zusammenarbeit zwischen Menschen und KI-Modellen ein großes Potenzial zur Verbesserung der Patientensicherheit hat“, erklärt Nikolas Zöller, Erstautor und Postdoktorand am Forschungsbereich Adaptive Rationalität des Max-Planck-Instituts für Bildungsforschung.
Das Beste beider Welten
Die Studie zeigt zudem, dass sich mithilfe der Kombination mehrerer KI-Modelle die Diagnosequalität steigern lässt. Das KI-Kollektiv lag im Durchschnitt über dem Niveau von 85 Prozent der menschlichen Diagnostikerinnen und Diagnostiker. Es gab jedoch zahlreiche Fälle, in denen Menschen besser abschnitten. Interessanterweise kannten Menschen oft die richtige Diagnose, wenn die KI versagte.
Ein aufschlussreiches Fazit zieht Stefan Herzog, Co-Autor der Studie und Senior Research Scientist am Forschungsbereich Adaptive Rationalität des Max-Planck-Instituts für Bildungsforschung: „Es geht nicht darum, den Menschen durch Maschinen zu ersetzen. Vielmehr sollten wir künstliche Intelligenz als ergänzendes Werkzeug begreifen, das in der kollektiven Entscheidungsfindung sein volles Potenzial entfaltet.“
Übertragbarkeit in die Praxis muss sich noch zeigen
Das Forscherteam betont jedoch auch die Grenzen ihrer Arbeit. So wurden ausschließlich textbasierte Fallvignetten untersucht, nicht jedoch echte Patientinnen und Patienten in realen klinischen Situationen. Ob sich die Ergebnisse direkt auf die Praxis übertragen lassen, werden Folgestudien zeigen müssen.
Überdies konzentrierte sich die Studie allein auf die Diagnose, nicht auf die Behandlung. Eine korrekte Diagnose garantiert allerdings nicht unbedingt eine optimale Behandlung. Außerdem bleibt die Frage offen, wie KI-basierte Unterstützungssysteme überhaupt in der Praxis von medizinischem Personal sowie von Patientinnen und Patienten angenommen werden.
Weitere Informationen:
Max-Planck-Instituts für Bildungsforschung
www.mpib-berlin.mpg.de
Bildhinweis:
Unser Titelbild entstand unter Zuhilfenahme von künstlicher Intelligenz.