Por Staff
La Internet ha proporcionado durante mucho tiempo respuestas – de precisión variable – a los muchos cuestionamientos relacionados con la salud de los pacientes. Ahora, los modelos de inteligencia artificial, como el ChatGPT, también están en la mezcla. Sin embargo, ¿qué tan buena es esta información? Una nueva investigación publicada en Ophthalmology Science sugiere que tiene potencial.1 Los investigadores evaluaron la calidad, seguridad y empatía de las respuestas emitidas por especialistas humanos, la IA y la IA editada por especialistas humanos, para contestar a preguntas comunes de pacientes de retina. Concluyeron que los entornos clínicos podrían hacer un buen uso de las respuestas de la IA.
En el estudio multicéntrico, enmascarado, los investigadores asignaron aleatoriamente 21 preguntas comunes de pacientes de retina a 13 especialistas en retina. Algunos ejemplos incluyen:
¿Qué causa la degeneración macular asociada a la edad?
¿Cuánto tiempo debo seguir recibiendo inyecciones anti-VEGF?
¿Puedo transmitir DMAE a mis hijos?
¿Cuánto tiempo puedo pasar entre inyecciones oculares?
¿Existe un buen tratamiento para moscas volantes?
Cada especialista elaboró una respuesta y, luego, editó una respuesta generada por el Large Language Model (LLM) ChatGPT-4. Se cronometraron para ambas tareas. Cinco LLMs (ChatGPT-3.5, ChatGPT-4, Claude 2, Bing y Bard) también generaron respuestas para cada una de las 21 preguntas. Otros especialistas que no participaron en el proceso inicial de redacción de respuestas evaluaron las respuestas y las juzgaron subjetivamente por su calidad y empatía (muy pobre, pobre, aceptable, buena o muy buena) y por su seguridad (información incorrecta, probabilidad de causar trastorno, extensión del trastorno y contenido inexistente).
Los investigadores recibieron 4.008 calificaciones (2.608 para calidad y empatía y 1.400 para métricas de seguridad) e informaron diferencias significativas en calidad y empatía entre los tres grupos: Solo LLM, solo especialista y especialista + IA. Este último obtuvo el mejor rendimiento general en términos de calidad, con el ChatGPT-3.5, como el LLM de mayor rendimiento. El ChatGPT-3.5 obtuvo la puntuación promedio de empatía más alta seguida del especialista + IA. Las respuestas de los especialistas ocuparon el cuarto lugar de siete en calidad y el sexto de siete en empatía (puntuación promedia), según el estudio. Las respuestas de los especialistas + IA superaron significativamente las respuestas de los especialistas, en cuanto a calidad y empatía.
“Los cirujanos ocupados pueden responder a las preguntas de los pacientes con precisión y rapidez; sin embargo, pueden no responder con tanta empatía como los LLMs”, dice el autor principal del estudio, Matthew R. Starr, MD, de la Mayo Clinic.
Afortunadamente, la IA parece estar lista para ayudar. En el estudio, los investigadores informaron ahorros de tiempo para las respuestas de la IA editadas por especialistas frente a las respuestas creadas por especialistas. “La IA ya está aquí, no va a venir”, dice el Dr. Starr. “Es parte de lo que hacemos y creo que debemos seguir en la vanguardia de la incorporación de la IA en la forma en que practicamos. Nosotros, como médicos, pasamos mucho tiempo respondiendo a las preguntas de los pacientes; si pudiéramos aprovechar los LLMs para responder a esas preguntas de manera segura y adecuada, eso nos daría mucho más tiempo”.
Sin embargo, el Dr. Starr señala que las respuestas generadas por la IA aún necesitan supervisión. “Muchas de las respuestas – generadas por la IA – eran excelentes; sin embargo, todavía hay algunas inexactitudes y posibles confusiones, por lo que deben editarse y examinarse adecuadamente. Eso llevará tiempo. Con suerte, a medida que mejoren, requerirán menos supervisión para las respuestas a las preguntas básicas”. Añade que en este caso será importante revelar a los pacientes que algunas respuestas son generadas por IA y revisadas por médicos.
Los futuros LLMs para consultas de pacientes necesitarían alguna modificación. “Estos LLMs son plataformas de código abierto y no cumplen con el HIPAA”, dice el Dr. Starr. “Si podemos hacer algo que se cree específicamente para los pacientes que creamos, entonces es posible que podamos usarlo y que cumpla con la HIPAA”.
Una limitación del estudio se debió al tiempo que se tardó en escribir y editar las respuestas. “Nos perdimos unas 100 preguntas de unas 4.000”, dice el Dr. Starr. También señala que puede haber ocurrido un efecto Hawthorne, en el que los individuos modifican su comportamiento en respuesta a la conciencia de ser observados, aunque los médicos no calificaron sus propias respuestas.
En general, los investigadores concluyen en su artículo que las respuestas del LLM fueron comparables a las escritas por los especialistas y que una colaboración de un especialista -LLM puede resultar en respuestas con mejor calidad y empatía que las de los especialistas humanos solos, al tiempo que ahorran tiempo, reducen potencialmente el agotamiento del médico y mejoran la atención al paciente. Los autores escriben que un “siguiente paso natural sería probar un borrador editable generado por el LLM para los mensajes de los pacientes”.
Otro grupo de investigadores se propuso determinar la precisión de la información que obtienen los pacientes cuando usan el ChatGPT.2
No es de extrañar que, hoy en día, los pacientes sepan mucho sobre las enfermedades que les afectan, dado el conocimiento instantáneo disponible a nuestro alcance. A pesar de que la Internet proporciona una gran cantidad de información confiable, es posible que los pacientes no sepan dónde buscar fuentes confiables sobre medicina y prácticas de salud en todas las especialidades, lo que los hace vulnerables al acceso a la información incorrecta.
Con la aparición de los chatbots de IA, este problema está al borde de una mejora tentativa, ya que dichos servicios podrían, en teoría, ayudar a mejorar la precisión al eliminar informes falsos. Utilizado en un estudio reciente, el ChatGPT puede no resolver este problema en gran medida en este momento, pero la idea de que los pacientes en el futuro puedan obtener información de un bot que aprende y mejora continuamente puede ser más adecuada para la educación complementaria del paciente que los motores de búsqueda que navegan sin rumbo fijo.
Para evaluar la precisión de la información oftálmica proporcionada por el ChatGPT, los investigadores del Wills Eye Hospital, en Filadelfia, evaluaron cinco enfermedades de ocho subespecialidades oftalmológicas. Para cada una, se hicieron tres preguntas:
¿Qué es?
¿Cómo se diagnostica?
¿Cómo se trata?
Las respuestas se puntuaron con un valor de -3 (no validadas y potencialmente nocivas a la salud o al bienestar de un paciente, si seguida dicha sugerencia) a 2 (correctas y completas). Para realizar estas evaluaciones, la información se calificó según las directrices de la Academia Americana de Oftalmología para cada enfermedad.
Se hicieron un total de 120 preguntas. Entre las respuestas generadas, el 77.5% logró una puntuación ≥1.27, mientras que el 61.7% se consideró correcta y completa, según las directrices de la AAO. Un significativo 22,5% de las respuestas obtuvieron una puntuación ≤-1. Entre ellas, el 7,5% obtuvo una puntuación de -3. El ChatGPT fue el mejor en responder a la primera pregunta y el peor en el tópico “tratamiento”. Las puntuaciones promedias generales para todas las subespecialidades fueron: 2, para “¿Qué es [x]?”; 1,5, para “¿Cómo se diagnostica [x]?”; 1, para “¿Cómo se trata [x]?”.
Los resultados se publicaron en la revista Eye. Los autores del estudio señalan el razonamiento de por qué las puntuaciones promedio fueron más altas en la pregunta de definición y más bajas en la pregunta de tratamiento, y suponen estar asociadas con el conjunto de datos de información que el ChatGPT obtuvo para el entrenamiento.
Como explicaron los autores en su artículo, “La definición de una enfermedad común suele ser estándar y bien conocida; por lo tanto, la información que el chatbot ha recibido en su capacitación con respecto a la definición de una enfermedad debe ser muy sencilla. Cuando se le pregunta sobre diagnóstico y tratamiento, es más probable que las entradas contengan información contradictoria”.
La misma hipótesis podría aplicarse a la tendencia observada para las diferencias en la puntuación promedia entre subespecialidades. El ChatGPT respondió correctamente a todas las preguntas generales de la subespecialidad, posiblemente porque las enfermedades de esta categoría son patologías más conocidas. Así, es posible que se haya extraído una mayor cantidad y un conjunto de información más consistente para aprender. Apoyando esta idea fueron las puntuaciones máximas obtenidas dentro de otras subespecialidades para patologías conocidas y usuales, incluyendo cataratas, glaucoma y retinopatía diabética.
Por supuesto, esta investigación demuestra que los chatbots están lejos de ser capaces de tener un uso sólido para difundir información médica. Sin embargo, los autores creen que “parece que la inteligencia artificial puede ser un complemento valioso para la educación del paciente, pero no es suficiente sin la supervisión médica humana”.
En el futuro, expresan que “a medida que aumente el uso de los chatbots, la supervisión médica humana de la confiabilidad y precisión de la información que proporcionan será esencial para garantizar la comprensión adecuada del paciente sobre su enfermedad y prevenir cualquier trastorno potencial a la salud o el bienestar del paciente”.
Referencias
Tailor PD, Dalvin LA, Chen JJ, et al. A comparative study of responses to retina questions from either experts, expert-edited large language models (LLMs) or LLMs alone. Ophthalmology Science 2024. [Epub ahead of print].
Cappellani F, Card KR, Shields CL, Pulido JS, Haller JA. Reliability and accuracy of artificial intelligence ChatGPT in providing information on ophthalmic diseases and management to patients. Eye. January 20, 2024. [Epub ahead of print].