Revelador estudio: el ChatGPT acertó más diagnósticos que un grupo de médicos
NUEVA YORK.– Adam Rodman, especialista en medicina interna del Centro Médico Beth Israel Deaconess, Boston, estaba convencido de que los bots conversacionales que utilizan inteligencia artificia...
NUEVA YORK.– Adam Rodman, especialista en medicina interna del Centro Médico Beth Israel Deaconess, Boston, estaba convencido de que los bots conversacionales que utilizan inteligencia artificial (IA) ayudarían a los médicos a diagnosticar enfermedades. Estaba equivocado.
Por el contrario, en un estudio que el propio Rodman ayudó a diseñar, a los médicos que se les permitió el uso de ChatGPT-4 –además de los recursos de diagnóstico convencionales– les fue apenas mejor que a los médicos que no tuvieron acceso a la IA. Sin embargo, para sorpresa de los investigadores, ChatGPT por sí solo superó el desempeño de los profesionales de la salud.
“Me quedé helado”, dice Rodman.
El bot conversacional, desarrollado por la empresa OpenAI, se anotó un promedio de éxito del 90% cuando tuvo que diagnosticar una enfermedad sobre la base de un informe del caso y explicar el razonamiento que lo había llevado a esa conclusión. Los médicos a los que aleatoriamente se les permitió usar el bot obtuvieron un promedio de certeza del 76%, mientras que los que no tuvieron acceso al bot obtuvieron un 74% de certeza en promedio.
Pero el estudio demostró mucho más que un desempeño superior por parte de ChartGPT-4: también reveló que la, a veces, inamovible convicción de un médico en su diagnóstico por más que el bot le sugiriera otro potencialmente más acertado.
Y el estudio también exhibió que, si bien los médicos tienen acceso a herramientas de inteligencia artificial para realizar su trabajo, muy pocos de ellos saben explotar las capacidades de los bots conversacionales. Conclusión: no logran sacar provecho de la capacidad de los sistemas de IA para resolver problemas diagnósticos complejos y explicar por qué llegaron a esa conclusión.
Los sistemas de IA deberían ser “extensiones del médico” que ofrezcan una valiosa segunda opinión sobre el diagnóstico, considera Rodman. Sin embargo, parece que queda mucho camino por recorrer antes de que ese potencial se desarrolle y haga realidad.
La historia clínica y su futuroDel experimento participaron 50 médicos residentes y médicos de planta de algunos grandes sistemas hospitalarios de Estados Unidos y fue publicado el mes pasado en la revista científica JAMA Network Open.
Los sujetos de prueba recibieron seis historias clínicas y fueron calificados según su capacidad para sugerir diagnósticos y explicar por qué lo elegían o descartaban. La calificación que obtuvieron también tomaba en cuenta si habían acertado en el diagnóstico final.
Quienes calificaron a los participantes eran expertos médicos que solo vieron las respuestas, sin saber si eran de un médico que había usado ChatGPT, de un médico que no lo había usado o de ChatGPT solo, sin intervención de un profesional.
Las historias clínicas utilizadas para el estudio pertenecían a pacientes reales y forman parte de un conjunto de 105 casos que los investigadores vienen utilizando desde la década de 1990. Se trata de casos que nunca fueron publicados a propósito, para que los estudiantes de medicina y los investigadores pudieran ser evaluados a partir de ellos sin conocerlos previamente. Eso también implicaba que ChatGPT no podía haberse “entrenado” sobre la base de esos casos.
Pero para graficar lo que realmente implicaba el estudio, en su publicación los investigadores incluyeron uno de los seis casos con los que pusieron a prueba a los médicos, junto con las respuestas sobre ese caso de un profesional que obtuvo una puntuación alta y de otro que obtuvo una puntuación baja. Se trata del caso de un paciente de 76 años con dolor agudo al caminar en la zona lumbar, los glúteos y las pantorrillas. El dolor empezó unos días después de que al paciente le habían realizado una angioplastía con balón para ensanchar una arteria coronaria. Durante las 48 horas posteriores a la intervención, había sido tratado con heparina, un anticoagulante.
El hombre se quejaba de sentirse afiebrado y cansado. Los estudios de laboratorio encargados por su cardiólogo indicaban la aparición de anemia y una acumulación en sangre de nitrógeno y otros productos de desecho renal. Una década antes, el hombre se había sometido a una cirugía de bypass. La descripción del caso también incluía detalles del examen físico del hombre y mostraba los resultados de sus análisis de laboratorio.
El diagnóstico correcto era embolia de colesterol, una afección en la que cristales de colesterol se desprenden de la placa que forman en las arterias y bloquean los vasos sanguíneos.
A los participantes se les pidió que indicaran tres diagnósticos posibles, con evidencia que los respaldara, y también se les pidió que indicaran, para cada diagnóstico posible, la evidencia en contrario o qué era esperable que estuviera y no estaba.
También les pidieron que se decidieran por un diagnóstico final. A continuación, debían nombrar tres pasos adicionales que darían para confirmar su diagnóstico.
Ni el caso publicado ni los otros cinco casos del estudio eran fáciles de diagnosticar, pero tampoco eran tan raros como para ser un caso único. Sin embargo, en promedio, los médicos obtuvieron peores resultados que el bot con IA.
Los investigadores empezaron a preguntarse qué pasaba. La respuesta parece tener que ver con la forma en que los médicos llegan a un diagnóstico y con cómo utilizan una herramienta como la IA.
El médico en la máquina¿Cómo diagnostican los médicos a sus pacientes? Según Andrew Lea, historiador de la medicina del Brigham and Women’s Hospital que no participó en el estudio, el problema es que “en realidad no sabemos cómo razonan los médicos”.
Cuando se les pide que expliquen cómo llegan a un diagnóstico, los médicos hablan de “intuición” o de “en base a mi experiencia”, apuntó Lea. Esa vaguedad es un desafío para los investigadores que desde hace décadas intentan crear un software que pueda pensar como un médico.
De hecho, esa búsqueda empezó hace casi 70 años. “Desde que existen las computadoras, siempre hubo gente que intentó utilizarlas para diagnosticar”, dijo Lea.
Con esa incertidumbre sobre cómo es el razonamiento de los médicos a la hora de diagnosticar, los expertos empezaron a modificar su pregunta: ¿para qué intentar diseñar programas que lleguen a un diagnóstico de la misma forma que lo hacen los humanos?
“El debate era hasta qué punto un programa informático debía intentar imitar el razonamiento humano –comentó Lea–. ¿Por qué no mejor aprovechar los puntos fuertes de las computadoras?” La computadora tal vez no sea capaz de dar una explicación clara de su proceso de decisión, pero ¿qué importa eso si acierta el diagnóstico?
El debate cambió con la llegada de los modelos de lenguaje grandes, como ChatGPT, que no hacen ningún intento explícito de replicar el razonamiento de un médico: su capacidad para diagnosticar es resultado de su capacidad de predecir el lenguaje.
“La interfaz de chat es la aplicación estrella”, destacó Jonathan H. Chen, médico y científico informático de la Universidad de Stanford, uno de los autores del nuevo estudio. “Ahora podemos cargar un caso completo en la computadora, pero hasta hace un par de años, los ordenadores no entendían el lenguaje”, agregó.
Sin embargo, es posible que muchos médicos no estén explotando todo ese potencial de la IA.
Error del operadorTras su sorpresa inicial por los resultados del nuevo estudio, Rodman decidió investigar un poco más a fondo los datos y analizar los intercambios reales entre los médicos y ChatGPT. Los médicos participantes habían visto los diagnósticos del bot y su razonamiento, entonces ¿por qué aquellos que tuvieron acceso a esa tecnología no tuvieron mejores resultados?
Y la respuesta es que los médicos. por lo general, no se dejaban convencer por el bot cuando señalaba algo que no coincidía con sus diagnósticos. Por el contrario, cuando el bot los contradecía, tendían a aferrarse a su propia idea de diagnóstico correcto.
“Cuando la IA les decía cosas con las que no estaban de acuerdo, no le hacían caso”, señaló Rodman.
Según Laura Zwaan, que estudia el razonamiento clínico y el error de diagnóstico en el Centro Médico Erasmus de Róterdam, esa respuesta tiene sentido. “Cuando cree que tiene razón, la gente se confía demasiado”, sostuvo Zwaan.
A eso se sumó otro problema: muchos de los médicos no sabían utilizar un bot conversacional en todo su potencial. Cuando se puso a analizar los intercambios de los médicos con el bot, Chen dice haber notado que “lo trataban como un motor de búsqueda de preguntas preorientadas: ‘¿La cirrosis es un factor de riesgo para el cáncer? ¿Cuáles son los posibles diagnósticos del dolor ocular?’”
“Solo unos pocos médicos se dieron cuenta de que podían literalmente copiar y pegar toda la historia clínica del caso en el bot y pedirle que simplemente diera una respuesta completa a toda la pregunta”, añadió Chen.
“Eran muy pocos –concluyó– los que realmente entendían que el bot podía arrojar respuestas sorprendentemente completas e inteligentes”.
Por Gina Kolata
(Traducción de Jaime Arrambide)