Decodificando la IA en Medicina: Una guía para la evaluación crítica de la evidencia en los estudios de IA en salud

Decodificando de IA en medicina, Evaluación Crítica de Artículos de IA en Medicina

Autora: Ledys Izquierdo. Pediatra Intensivista. Msc Ing. Biomédica. Miembro Fundador de Aipocrates.

Introducción

En la era actual, la convergencia de la inteligencia artificial (IA) en campos como la medicina está transformando radicalmente la forma en que se abordan los desafíos diagnósticos, pronósticos y terapéuticos. La complejidad inherente a los sistemas de IA, desde los algoritmos de aprendizaje automático (Machine Learning) y aprendizaje profundo (Deep Learning) hasta los grandes modelos de lenguaje (LLM), exige una comprensión profunda que va más allá de la mera implementación tecnológica.

Es crucial un enfoque multidisciplinario (clínicos, estadísticos, epidemiólogos, ingenieros de IA, científicos de datos, entre otros), donde diversas disciplinas convergen para asegurar el desarrollo, la validación y la aplicación ética y efectiva de la IA en la salud, estas disciplinas, junto con otras como la bioética y la informática médica, forman un ecosistema esencial para el avance responsable de la IA en la salud.

Las diferentes disciplinas evolucionarán y serán necesarias para convertirse en arquitectos, guardianes y críticos expertos de los sistemas de IA en la salud. Ofrecerán el rigor que se requiere para asegurar que la IA sea una fuerza para bien en la salud, y no una fuente de errores o posibles injusticias.


El rol del lector clínico ante los estudios de IA

Para analizar los diferentes estudios que se están diseñando basados en IA, un médico de esta época no necesita ser un científico de datos o un ingeniero de IA, sí debe ser un lector informado y crítico, capaz de hacer las preguntas correctas sobre la evidencia presentada en estudios que utilizan IA, y entender las implicaciones de su aplicación en la práctica clínica y la salud de los pacientes.

Por lo tanto, para que un médico pueda comprender y evaluar críticamente un estudio que utilizó IA, debe desarrollar un conjunto de competencias que van más allá de la medicina tradicional e integrar conocimientos de tecnología, estadística y ética.


Objetivo del documento

En este escrito se dará una guía para navegar y evaluar críticamente en la proliferación de publicaciones científicas que exploran el uso de la IA en entornos clínicos, presentando una lista de verificación que puede ser exhaustiva, porque permite a los lectores evaluar la solidez metodológica, la aplicabilidad clínica y las consideraciones éticas de cualquier estudio que involucre sistemas de IA en el apoyo a decisiones médicas (Paul Dijkstra et al. 2025). Estas preguntas son un complemento valioso a las directrices de informes existentes, como TRIPOD+AI, STARD-AI y CONSORT-AI (Kolbinger FR et al, 2024), que son extensiones de directrices establecidas con elementos adicionales para abordar posibles fuentes de sesgo específicas de los sistemas de IA.

Este documento enfatiza que, aunque las pautas de informes son un buen punto de partida, no deben usarse acríticamente como listas de verificación de calidad. También destaca la importancia de considerar la validez externa de los estudios de IA, es decir, si la tecnología de IA funciona en la práctica clínica real.


Lista de verificación crítica para estudios de IA en salud

Las directrices de verificación pueden incluir las siguientes preguntas:

1. ¿Cuál fue el diseño del estudio y (excluyendo la IA por ahora) cumple con los criterios establecidos de rigor metodológico?

Esta pregunta es fundamental desde una perspectiva epidemiológica y estadística. Antes de evaluar la IA, es imperativo asegurar que el estudio base es metodológicamente sólido, comparable a cualquier investigación clínica. Se busca verificar si el diseño (ej., ensayo controlado aleatorizado, estudio de cohorte) fue apropiado para la pregunta de investigación. Además, se analiza si el tamaño de la muestra es adecuado, si los participantes son representativos de la población objetivo y si se controlaron los sesgos inherentes al diseño del estudio (ej., cegamiento, comparabilidad basal entre grupos).


2. ¿Cuál fue el uso clínico previsto del sistema de IA (es decir, qué decisiones pretende apoyar, quién y con qué propósito)?

Es clave comprender la relevancia clínica y el alcance del sistema de IA. Es crucial que los autores definan claramente el problema clínico que la IA pretende resolver y el rol específico que tendrá en el flujo de trabajo clínico (ej., diagnóstico, predicción de riesgo, optimización de tareas administrativas). Debe clarificar de manera expresa el beneficiario, paciente, médico o gestor. Sin una comprensión clara del propósito, es imposible evaluar su utilidad práctica.


3. ¿Qué tipo de tarea computacional estaba diseñado para soportar el sistema de IA?

Es importante identificar el tipo de algoritmo subyacente y su complejidad. Las tareas computacionales comunes incluyen predicción, clasificación, asociación, regresión y optimización. Conocer esto permite evaluar si la técnica de IA utilizada es la más adecuada para el problema y si los resultados son interpretables en el contexto de esa tarea.


4. ¿Qué sistema de IA se utilizó y cómo?

Conocer el sistema mejora la transparencia y reproducibilidad del estudio. Es esencial conocer la versión del sistema de IA, el algoritmo subyacente, el hardware y software de soporte, es importante el juicio crítico sobre cómo se adquirieron, procesaron y gestionaron los datos de entrada, incluyendo el manejo de datos faltantes o de baja calidad. También se debe describir cómo se presentaron los resultados al usuario, ya que esto influye en la interacción y la toma de decisiones.


5. ¿Dónde se ubicó el sistema de IA en los flujos o vías de trabajo clínicos?

Define factores humanos y la implementación práctica. El uso de la IA debe acoplarse al flujo de trabajo clínico sin interrumpirlo. La IA, debe reducir el grado de sesgo cognitivo del usuario, contribuyendo en mejorar la toma de decisiones. La eficacia de un sistema de IA no solo depende de su precisión, sino de cómo se integra en la práctica diaria sin interrumpir o complicar las tareas existentes.


6. ¿Cuál fue el enfoque de posibles errores en el sistema de IA?

La evaluación de errores es de suma importancia para la seguridad del paciente. Se resaltan tres categorías de errores: errores de algoritmo, mal funcionamiento del software/hardware de soporte y errores del usuario. Los estudios deben informar no solo la existencia de errores, sino también su frecuencia, causas y efectos en la atención al paciente. Es vital considerar la monitorización continua post-implementación, dado el riesgo que «deriva del conjunto de datos» (dataset drift) o «deriva de la población» (population drift) que puede llevar a una disminución del rendimiento con el tiempo.


7. ¿Cómo abordaron los autores los factores humanos?

Centra el tema en la usabilidad y la interacción humano-computadora, aspectos críticos para la adopción y el éxito de la IA en entornos clínicos. Se refiere a la ergonomía, la conciencia situacional, la carga de trabajo y el tecnoestrés. Los autores deben describir cómo el diseño del sistema de IA tiene en cuenta estas interacciones para garantizar que la tecnología no solo sea precisa sino también práctica y segura para los usuarios.


8. ¿Qué tan transparentes fueron los autores sobre los datos y el código utilizados para entrenar y validar su sistema de IA?

La transparencia es fundamental para la reproducibilidad y la confianza en la investigación en IA. Los autores deben proporcionar una descripción detallada de los datos (hojas de datos) y el código utilizado para entrenar y validar el sistema, preferiblemente haciéndolos disponibles (ej., en un archivo suplementario). Esto permite que otros investigadores auditen, repliquen y construyan sobre el trabajo, promoviendo la ciencia abierta.


9. ¿Cómo trataron los autores el uso ético del sistema de IA?

La perspectiva ética es crucial para abordar el impacto social y moral de la IA. Se deben describir las técnicas utilizadas para detectar, cuantificar y mitigar el sesgo algorítmico, así como las medidas para garantizar la privacidad y seguridad de los datos. Además, es importante evaluar la adecuación de la información proporcionada a los pacientes para que puedan tomar decisiones informadas sobre su atención. La IA no solo debe ser efectiva, sino también justa y responsable.


10. ¿Incorporó la investigación múltiples tipos de experiencia?

Es claro que la complejidad de la IA en la atención médica requiere un enfoque multidisciplinario (depende de la colaboración: clínicos, estadístico, epidemiólogo, Ingenieros IA, ética Médica, Pacientes, expertos UX/UI. entre otros). Es esencial que el equipo de investigación incluya no solo expertos en IA, sino también clínicos y pacientes, para asegurar que el sistema sea relevante, práctico y éticamente sólido. La participación de pacientes y clínicos en el diseño y prueba de la herramienta es vital para evitar una «monocultura de conocimiento», así se garantiza que la delegación de tareas a un algoritmo sea la apropiada.


Conclusión

La integración de técnicas IA en la práctica médica implica la aplicación de metodologías que permitan verificar y validar la calidad y precisión de los estudios, las preguntas descritas permiten una asimilación transparente, precisa y consciente de las implicaciones de IA en la práctica médica, es decir, ayudan a que se escojan los estudios más confiables y con mayor sustento ético, técnico, científico y multidisciplinario. Las preguntas son una versión simplificada de la lista de verificación DECIDE-AI (Desarrollo e Investigaciones Clínicas Exploratorias de Sistemas de Apoyo a la Decisión Impulsados por Inteligencia Artificial), que proporcionan un marco de evaluación crítica esencial para cualquier persona que lea una investigación sobre IA en el contexto de la atención médica, no son una lista de Verificación Rígida, más bien corresponden a recomendaciones y guías que permiten una interacción crítica con la generación de las nuevas formas de conocimiento.


Referencias


Deja un comentario