Según un estudio reciente, el sistema de inteligencia artificial (IA) ChatGPT puede obtener resultados en las pruebas que están aproximadamente un 60% por encima de la nota de aprobado del examen US Medical Licensing Exam (USMLE), con respuestas internamente consistentes, coherentes y frecuentemente perspicaces. Pero aún no puede asumir el papel de los médicos.
Rendimiento de ChatGPT en el USMLE: Potential for AI-assisted medical education utilizing big language models es el título de un reciente artículo que Tiffany Kung, Victor Tseng y sus colegas de AnsibleHealth han publicado en la revista de acceso abierto PLOS Digital Health.
Se creó un modelo de gran lenguaje (LLM) llamado ChatGPT (Chat Generative Pre-trained Transformer) con el objetivo de producir una escritura que se asemejara a la de un humano anticipando futuras secuencias de palabras. ChatGPT, un prototipo que se presentó en noviembre, se diferencia de la mayoría de los chatbots en que no puede realizar búsquedas en Internet. Para construir el texto, utiliza asociaciones de palabras predichas por sus procesos internos.
El etiquetado automático de objetos y personas en fotos, la traducción de textos a un nivel casi humano, el escaneado automático en cajeros automáticos e incluso la creación de pies de foto han sido posibles gracias a la capacidad de crear rápidamente modelos de clasificación muy precisos independientemente del tipo de datos de entrada (como imágenes, texto y audio). Aunque estas tecnologías han tenido una gran repercusión en muchos otros sectores, aún son escasos sus usos en la atención clínica.
Sin datos estructurados y legibles por máquina
Explicaron que hay una escasez de datos organizados y legibles por máquina necesarios para la creación de algoritmos de aprendizaje profundo debido al aumento de los campos de texto libre clínicos y una falta general de interoperabilidad entre los sistemas de TI de salud.
Según el estudio, incluso cuando se crean algoritmos clínicamente relevantes, su calidad suele ser muy variable y muchos de ellos no se generalizan entre situaciones debido a su escasa reproducibilidad técnica, estadística y conceptual.
Como consecuencia, la inmensa mayoría de las aplicaciones sanitarias eficaces ofrecen ahora tareas administrativas, como la tramitación automatizada de autorizaciones previas, las operaciones de pago, la gestión de la cadena de suministro y los riesgos de ciberseguridad. En la actualidad, sólo hay un pequeño número de aplicaciones de IA que se utilicen directamente en el tratamiento clínico general, incluso en el campo de la imagen médica.
El enorme potencial de los sistemas de IA
Los autores afirman que los sistemas de IA actuales son muy prometedores para mejorar el tratamiento médico y los resultados sanitarios. “Por ello, es esencial asegurarse de que los principios de confianza y explicabilidad se utilizan para guiar el desarrollo de la IA clínica. Un paso inicial crucial para evaluar estos atributos es comparar los conocimientos médicos de la IA con los de los profesionales humanos”.
Kung y sus colegas evaluaron el rendimiento de ChatGPT en el USMLE, una serie de tres exámenes (Pasos 1, 2CK y 3) altamente estandarizados y regulados, necesarios para obtener la licencia médica estadounidense. El USMLE es un examen al que se someten los estudiantes de medicina y los médicos en formación para evaluar sus conocimientos de la mayoría de las especialidades médicas, incluidas la bioquímica, el razonamiento diagnóstico y la bioética. Los autores evaluaron el software en 350 de las 376 preguntas públicas disponibles de la versión del USMLE de junio de 2022, tras realizar un cribado para eliminar las preguntas basadas en imágenes.
Tras eliminar las preguntas sin respuesta, las puntuaciones de ChatGPT en los tres exámenes USMLE oscilaron entre el 52,4% y el 75,0%. Cada año, el porcentaje de aprobados se sitúa en torno al 60%. Además, ChatGPT mostró una concordancia del 94,6% en todas sus respuestas, y el 88,9% de sus respuestas aportaron al menos una idea sustancial (algo novedoso, no obvio y clínicamente válido).
En particular, ChatGPT superó a PubMedGPT, un modelo rival entrenado sólo en literatura del ámbito biomédico, que obtuvo una puntuación del 50,8% en un conjunto de datos anterior de preguntas tipo USMLE.
Aunque la profundidad y amplitud de los análisis se vieron limitadas por el tamaño relativamente pequeño de los datos de entrada, los autores señalan que sus resultados demuestran que ChatGPT tiene potencial para mejorar la práctica clínica y, en última instancia, la enseñanza de la medicina. Por ejemplo, citan cómo los profesionales de AnsibleHealth utilizan actualmente ChatGPT para reelaborar informes con mucha jerga en beneficio de los pacientes.
Sin ayuda humana, concluyeron los autores, “lograr aprobar este examen de expertos infamemente difícil marca un hito digno de mención en el desarrollo de la IA clínica”.
Kung llegó a la conclusión de que la función del chatbot en este estudio iba más allá del tema del estudio. “ChatGPT contribuyó significativamente a la creación de nuestro manuscrito. Interactuamos con ChatGPT como si fuera un colega, pidiéndole que resumiera, delineara y proporcionara oposición a los borradores en los que aún se estaba trabajando”, afirmaron. “La aportación de ChatGPT fue valorada por todos los coautores”.