Alejandro Hernández Arango. MD Internista, MSc Medicina Digital. Miembro Fundador AIpocrates.

Comencemos este análisis con una perspectiva técnica sobre el uso de herramientas de IA generativa en el ámbito de la medicina.
Imaginemos a un médico rural, con amplia experiencia clínica, enfrentándose a la implementación de sistemas de inteligencia artificial avanzados que prometen diagnósticos precisos y tratamientos personalizados. Este profesional de la salud, con la cautela propia de quien ha observado la evolución de numerosas tecnologías, se cuestiona si estas promesas realmente cumplirán con las expectativas.
Para evitar caer en un entusiasmo injustificado, es crucial aplicar un enfoque crítico para evaluar el origen y la calidad de las respuestas proporcionadas por la IA. En primer lugar, debemos examinar la procedencia de los datos con los que se entrenan estos modelos. Si el modelo solo ha sido entrenado con datos de pacientes urbanos, ¿cómo podría interpretar adecuadamente las particularidades de la salud de un paciente rural, expuesto a condiciones de trabajo bajo el sol y otros factores específicos? Esto introduce un sesgo significativo en el modelo, que puede derivar en errores graves si no comprendemos adecuadamente sus limitaciones.
En el contexto de los grandes modelos de lenguaje actuales, la evolución tecnológica está ocurriendo a gran velocidad. Por ello, es necesario evaluar el rendimiento de la IA mediante métricas definidas, que no son más que indicadores cuantitativos de su desempeño. Estas métricas, aunque complejas, se encargan de comparar las respuestas generadas por la IA con lo que se esperaría de un médico humano, evaluando aspectos como la precisión diagnóstica y la claridad explicativa.
A continuación, se describen algunas de las principales métricas empleadas para evaluar el rendimiento de estos modelos de lenguaje, como ChatGPT, en el ámbito de la medicina:
| Métrica | Descripción |
| BLEU | Evalúa la calidad de las traducciones generadas por el modelo, asegurando la fidelidad y coherencia entre los idiomas. |
| ROUGE | Evalúa la capacidad del modelo para generar resúmenes precisos de textos médicos. |
| METEOR | Evalúa aspectos como la calidad, la coherencia y la precisión de las traducciones o resúmenes. |
| Perplejidad | Mide el grado de incertidumbre del modelo al predecir la siguiente palabra en una secuencia. |
| G-Eval | Evalúa la similitud entre las respuestas generadas por el modelo y las respuestas típicamente emitidas por un humano experto. |
| MultiMedQA | Conjunto de preguntas de distintas dificultades, diseñado para evaluar la capacidad del modelo en responder a cuestiones de medicina. |
| Entropía | Evalúa el nivel de aleatoriedad o imprevisibilidad de las respuestas del modelo. |
Es importante destacar que ninguna métrica es perfecta. Cada una tiene limitaciones, y deben ser usadas basadas en el contexto de uso (no aplicar una métrica que evalúa calidad de traducciones en un problema de síntesis o resúmenes) para tener una visión completa del desempeño del modelo, siempre aplicando un criterio riguroso para evitar conclusiones erróneas. Además, es fundamental que el flujograma clínico en el cual se toma una decisión con un LLM a bordo sean validadas en estudios clínicos experimentales (ensayos clínicos) que puedan evaluar la eficacia y aplicabilidad de los modelos en entornos reales. Los estudios de validación clínica permiten comprobar si el modelo mantiene su desempeño en diferentes contextos y con diferentes poblaciones, asegurando que sus aplicaciones sean seguras y efectivas.
Por otra parte, al evaluar estas métricas en las fases tempranas de desarrollo preclínico, es crucial repasar los estadios de maduración del modelo. Según lo mencionado en el artículo sobre los sistemas de soporte a las decisiones clínicas basados en IA, los modelos de inteligencia artificial pasan por distintas fases de desarrollo antes de ser considerados aptos para un uso clínico. Basándonos en la figura proporcionada, estas fases se dividen en varias etapas:
- Desarrollo Preclínico: En esta fase, se realiza una evaluación en entornos simulados o «in silico». Aquí es donde se desarrolla y se ajusta el modelo, y se exploran sus capacidades en escenarios controlados sin involucrar a pacientes reales. En el contexto de IA en salud, esta etapa también puede incluir evaluaciones silentes o en segundo plano, como las descritas en las guías TRIPOD-AI y STARD-AI.
- Validación Offline: Durante esta fase se realiza una validación fuera de los entornos clínicos en vivo. Este proceso suele involucrar la evaluación de la IA utilizando datos históricos, pero sin interferir en la toma de decisiones clínicas reales. La validación en esta fase sigue estándares como TRIPOD-AI y STARD-AI, que proporcionan un marco para evaluar la robustez y precisión del modelo antes de implementarlo en escenarios más sensibles.
- Seguridad y Utilidad en Escala Pequeña: En esta etapa, el modelo se somete a pruebas en entornos clínicos de pequeña escala, mediante evaluaciones clínicas tempranas o pilotos. Aquí se evalúan la seguridad y la utilidad del modelo en un entorno real, asegurando que no represente un riesgo significativo para los pacientes. El marco DECIDE-AI se utiliza frecuentemente para evaluar si el modelo está listo para ser evaluado en estudios clínicos más amplios.
- Seguridad y Efectividad a Gran Escala: Esta fase corresponde a ensayos clínicos de fase 3 donde se realiza una evaluación prospectiva comparativa. Utilizando guías como SPIRIT-AI y CONSORT-AI, el modelo se somete a pruebas rigurosas para determinar su efectividad y seguridad en entornos clínicos amplios, comparándolo con las prácticas estándar existentes.
- Vigilancia Post-comercialización: Una vez que el modelo ha sido aprobado e implementado a gran escala, se lleva a cabo una vigilancia continua para detectar posibles efectos adversos o fallos en el rendimiento. Esta fase se asemeja a la farmacovigilancia de los medicamentos, donde se asegura que el modelo siga funcionando adecuadamente y se monitorea su impacto en el entorno clínico.
Cada una de estas etapas tiene requisitos específicos de evaluación que permiten identificar si el modelo está listo para ser utilizado con pacientes reales. El estadio de maduración también incluye la evaluación del impacto del modelo en la práctica clínica, no solo en términos de precisión, sino también en cómo afecta la toma de decisiones de los profesionales y los resultados en la salud de los pacientes.
Además de la eficiencia técnica, existe un componente fundamental: el ético. Los principios de justicia, beneficencia, no maleficencia y autonomía deben estar presentes al utilizar estas herramientas. Es esencial garantizar la protección de la privacidad de los datos de los pacientes, recordando que los modelos que no son open-source se quedan con los datos que les proporcionamos y nuestro deber como médicos es asegurar que toda la información se maneje con el máximo nivel de confidencialidad. Asimismo, es crucial que estas tecnologías aseguren la equidad en la atención, independientemente del contexto socioeconómico del paciente. Estas cuestiones éticas no siempre pueden cuantificarse, pero son fundamentales para el uso responsable de la IA en la medicina.
Bibliografía
Park, YJ., Pillai, A., Deng, J. et al. Assessing the research landscape and clinical utility of large language models: a scoping review. BMC Med Inform Decis Mak 24, 72 (2024). https://doi.org/10.1186/s12911-024-02459-6
