Satya Nadella quiere que AI sea su próximo médico.
El CEO de Microsoft anunció dos avances de IA de atención médica en las redes sociales esta semana, incluido Mai-Dxo, un sistema que simula múltiples médicos virtuales que trabajan juntos para resolver misterios médicos.
En las pruebas contra 304 casos complejos del New England Journal of Medicine, Microsoft informó que la IA diagnosticó correctamente el 85.5% de ellos. ¿Un colección de 21 médicos experimentados que abordan los mismos casos? Obtuvieron un 20% correcto.
“Emocionado de compartir dos avances que nos acercan al impacto del mundo auténtico en la IA de la sanidad”, escribió Nadella. “Mai-DXO es un orquestador descreído maniquí que simula un panel de médicos virtuales. Logra un 85.5% de precisión diagnóstica, cuatro veces que los de los médicos experimentados, mientras reducen los costos de diagnosis”.
Emocionado de compartir dos avances que nos acercan al impacto del mundo auténtico en la AI de la sanidad:
Sdbench presenta un nuevo punto de remisión que transforma 304 casos de NEJM en simulaciones de diagnosis interactivas. La IA debe hacer preguntas, las pruebas de pedido y valorar los costos, reflectar la complejidad de … pic.twitter.com/lasc4hk730
– Satya Nadella (@satyanadella) 30 de junio de 2025
El anuncio se produce cuando Microsoft se une a un campo realizado de clan de compañías tecnológicas que se compiten para aplicar la IA a los problemas más espinosos de Healthcare.
Con los estadounidenses que gastan casi $ 5 billones anuales en atención médica, y errores de diagnosis que afectan a 12 millones de personas Cada año, según la Universidad Johns Hopkins, la idea de usar IA para chocar Los problemas relacionados con los humanos parecen obvio.
Cómo funciona el Consejo Médico de Microsoft
Mai-Dxo funciona como un equipo de sueño médico atrapado en una computadora. El sistema aborda los casos a través de lo que Microsoft pasión el punto de remisión de diagnosis secuencial, o SDBench.
En oportunidad de preguntas de opción múltiple como las pruebas de IA médica tradicionales, refleja cómo funcionan los médicos: comenzar con información limitada sobre un paciente, hacer preguntas de seguimiento, ordenar pruebas y ajustar teorías a medida que llegan los nuevos datos.
Cada prueba incurre en un costo en el pasta supuesto, lo que obliga a la IA a equilibrar la minuciosidad contra el desembolso en sanidad.
En otras palabras, básicamente simula un consejo médico que debate un caso, con diferentes modelos que juegan diferentes roles. Los modelos debaten, en desacuerdo y eventualmente lograr a un consenso, al igual que sus médicos lo harían si fuera un caso difícil de estudiar.
En una configuración, MAI-DXO logró una precisión del 80% al tiempo que gastó $ 2,397 por caso, aproximadamente un 20% menos que los $ 2,963 que los médicos típicamente gastan.
En el mayor rendimiento, logró una precisión del 85.5% a un costo de $ 7,184 por caso. En comparación, el maniquí O3 independiente de OpenAI logró una precisión del 78.6%, pero costó $ 7,850.

Imagen: Microsoft
El panel de médicos virtuales incluye al Dr. Hipótesis, quien mantiene una tira de ejecución de los tres diagnósticos más probables utilizando métodos de probabilidad bayesianos.
El Dr. Test-Chooser selecciona hasta tres pruebas de diagnosis por ronda, con el objetivo de obtener la máxima provecho de información.
El Dr. Challenger actúa como el contrario, buscando evidencia que contradice la teoría predominante. El Dr. Stewardship veta pruebas costosas con bajo valía de diagnosis.
Mientras tanto, el Dr. Checklist asegura que todos los nombres de las pruebas sean válidos y el razonamiento del equipo se mantiene consistente.

Imagen: Microsoft
Microsoft probó el sistema en casos publicados en el New England Journal of Medicine entre 2024 y 2025, luego de la plazo de corte de capacitación de la IA, eliminando cualquier posibilidad de que el maniquí haya memorizado las respuestas.
Los estudios fueron casos difíciles que requirieron un examen pormenorizado para ser diagnosticado adecuadamente.
Los 21 médicos que Microsoft reclutó para comparación tuvieron entre 5 y 20 primaveras de experiencia, con una mediana de 12 primaveras.
Trabajaron sin acercamiento a colegas, libros de texto o presencia de IA para avalar una comparación torneo de la capacidad de diagnosis en bruto. Informaron una tasa de éxito del 20% en estos casos ciertamente difíciles.
El sistema funciona en varios modos. “Respuesta instantánea” proporciona un diagnosis basado solamente en la información original por $ 300, el costo de una entrevista al médico.
“Solo pregunta” permite preguntas de seguimiento sin ordenar pruebas. “Presupuestado” rastrea los costos con un techo de desembolso mayor. “Sin presupuesto” le da al panel de rienda suelta, mientras que “Ensemble” ejecuta múltiples paneles y agrega sus conclusiones para la máxima precisión.
El futuro de la medicina?
Mai-DXO representa el impulso más amplio de Microsoft en la IA de sanidad del consumidor.
La compañía informa más de 50 millones de sesiones relacionadas con la sanidad diariamente en sus productos Bing y Copilot. Desde búsquedas de dolor en la rodilla hasta búsquedas de atención urgente, Microsoft ve que los motores de búsqueda y los asistentes de IA se convierten en la nueva puerta principal para la atención médica.
Por supuesto, este es solo un paso más en una semirrecta de tiempo muy larga de tecnología médica.
Para el contexto, el sistema Mycin de Stanford diagnosticó infecciones bacterianas en la lapso de 1970, y las conversaciones de médico-paciente simuladas de AMIE de Google el año pasado.
Microsoft desarrolló Mai-Dxo como un sistema descreído maniquí, lo que significa que puede funcionar con modelos de IA de diferentes compañías.
En las pruebas, aumentó el rendimiento en modelos de OpenAI, Google, Anthrope, Meta y otros en un promedio de 11%. La restablecimiento fue estadísticamente significativa en todos los modelos probados.
El Dr. Dominic King y Harsha Nori, que dirigieron la investigación en Microsoft AI, enfatizaron en una publicación de blog que la tecnología sigue siendo una demostración de investigación.
“Quedan desafíos importantes antaño de que la IA generativa se pueda implementar de forma segura y responsable en toda la atención médica”, escribieron. El sistema sobresale en desafíos de diagnosis complejos, pero necesita pruebas en casos de rutina.
Microsoft planea expedir la investigación para la revisión por pares y está trabajando con organizaciones de atención médica para validar el enfoque en entornos clínicos.
La compañía ha dejado en claro que cualquier despliegue requeriría “pruebas de seguridad rigurosas, potencia clínica y revisiones regulatorias”.
Por ahora, Mai-Dxo permanece circunscrito a los laboratorios de investigación. Pero con los errores de diagnosis que contribuyen a casi el 10% de las muertes de pacientes y afectan a millones anualmente, el panel de médicos virtuales de Microsoft representa otro paso alrededor de la atención médica asistida por AII.
El equipo de IA de cinco doctores podría diagnosticar mejor que 21 médicos humanos combinados, pero aún es demasiado temprano para ver una implementación convencional.
Microsoft dice que la IA no reemplazará a los médicos; Los aumentará. Los 21 médicos que obtuvieron un puntaje del 20% en esos brutales casos de NEJM probablemente esperan que eso sea cierto.
Editado por Sebastian Sinclair y Josh Quittner