Microsoft hat ein KI-gestütztes Diagnosesystem entwickelt, das in medizinischen Fallstudien eine Erfolgsquote von 85,5 Prozent erreicht – mehr als das Vierfache der menschlichen Vergleichsgruppe. Der „AI Diagnostic Orchestrator“ wurde erstmals mit 304 besonders komplexen Patientenfällen aus dem New England Journal of Medicine getestet. Zum Vergleich: erfahrene Ärzte ohne Zugriff auf Hilfsmittel diagnostizierten korrekt in etwa 20 Prozent der Fälle.
Die neue Technologie ist das erste Projekt der Microsoft Health AI-Einheit unter Leitung von Mustafa Suleyman, der zuvor das KI-Labor DeepMind mitbegründet hatte. Im Zentrum des Systems steht ein „Orchestrator“, der mehrere spezialisierte KI-Agenten wie ein virtuelles Ärzteteam organisiert. Diese Agenten entwickeln Hypothesen, wählen Tests aus und diskutieren auf Basis eines neuen Verfahrens namens „chain of debate“ die beste Diagnose.
Zum Einsatz kamen große Sprachmodelle von OpenAI, Meta, Google, Anthropic, xAI und DeepSeek. Während alle Modelle von der Orchestrierung profitierten, erzielte das OpenAI-Modell „o3“ die beste Performance. Neben der hohen Treffergenauigkeit fiel auch auf, dass das System kostenoptimiert vorging: es sparte in der Simulation durch gezielte Testauswahl teils Hunderttausende Dollar ein.
Dominic King, früher Leiter von DeepMind Health, sieht in dem Projekt das bisher leistungsfähigste System im Bereich medizinischer KI. Gleichzeitig betonte er den experimentellen Charakter: Die Ergebnisse seien nicht peer-reviewed und aktuell nicht für den klinischen Alltag freigegeben.
Dennoch unterstreicht die Studie das disruptive Potenzial generativer KI im Gesundheitswesen – insbesondere vor dem Hintergrund globaler Versorgungsengpässe und steigender medizinischer Kosten. Suleyman kündigte an, Teile der Technologie bald auch in Microsofts Copilot und Bing integrieren zu wollen, die täglich rund 50 Millionen Gesundheitsanfragen verarbeiten.
Trotz der engen Kooperation mit OpenAI verfolgt Microsoft einen modellunabhängigen Ansatz. „Langfristig“, so Suleyman, „werden große Sprachmodelle Commodity – der wahre Wert liegt in ihrer intelligenten Koordination.“