Natalia Sánchez1, Adriana Aya1, Edwin Pulido1, Heidy Trujillo1, Andrés F. Cardona1
Instituto de Investigación y Educación, Centro de Tratamiento e Investigación sobre Cáncer Luis Carlos Sarmiento Angulo (CTIC), Bogotá, Colombia
¿Tienen equidad los modelos de predicción en oncología?
Importancia de la equidad en el desarrollo y evaluación de Modelos
La equidad se enfatiza cada vez más en la investigación relacionada con el diseño de modelos de predicción, hasta el punto de considerarse necesaria en múltiples etapas de su desarrollo y evaluación, incluso en la formulación del problema. Los investigadores deben cuestionar si existen inequidades en salud con impacto en la incidencia, el cribado poblacional, el diagnóstico, el tratamiento o los resultados de diversas intervenciones para el cáncer, lo que lleva al paso esencial que permite identificar dimensiones clínicamente significativas (atributos sensibles) para la evaluación de la equidad (22).
Disparidades, representatividad y sesgos de generalización
En oncología, donde la carga de enfermedad, el acceso a la atención y los resultados clínicos suelen diferir entre los grupos demográficos y socioeconómicos, abordar estas disparidades es fundamental para evitar exacerbar las inequidades existentes. Por ejemplo, la incidencia del cáncer de próstata es mayor en pacientes de raza negra. Además, la incidencia, las características patológicas y los resultados clínicos del cáncer de mama varían según los grupos geográficos, raciales y étnicos, lo que afecta de forma desproporcionada tanto a la población negra como a la hispana, que sigue subrepresentada en los ensayos clínicos (23). La representatividad de los datos es fundamental. Modelos como el Khorana Score para estimar el riesgo de tromboembolia venosa en pacientes con cáncer (desarrollado en una población predominantemente blanca) podrían carecer de representatividad actual (24). La atención oncológica basada en la genómica se enfrenta a desafíos similares, ya que plataformas como el Atlas del Genoma del Cáncer (del inglés, TCGA) aumenta la representación de la ascendencia europea y subrepresenta a las poblaciones asiática, africana e hispana, lo que conlleva un riesgo de generalización deficiente (25).
Predictores, enfoque racial y evaluación estratificada
La selección de predictores también afecta la imparcialidad. Excluir atributos sensibles (por ejemplo, raza/etnia) puede afectar el rendimiento de los modelos, especialmente cuando la carga de enfermedad varía (26). Si bien los «modelos con enfoque racial» podrían mitigar las disparidades, la raza/etnia constituye un constructo social complejo, con registros que favorecen las inconsistencias. En esta dimensión, marcos como el GUIDE (Guía para la Información Predictiva Imparcial para la Toma de Decisiones y la Equidad en la Atención Sanitaria) ayudan a orientar su uso, equilibrando la validez estadística y la ética. La evaluación de la imparcialidad también requiere más que métricas agregadas; la evaluación a nivel poblacional puede enmascarar las disparidades entre subgrupos. La evaluación estratificada (por ejemplo, por tipo de cáncer, sexo, edad, nivel socioeconómico, raza/etnia) y las herramientas visuales (gráficos de calibración, análisis de curvas de decisión) son necesarias para detectar diferencias en el rendimiento y orientar las medidas de mitigación (como la generación de umbrales específicos para cada subgrupo) (27).
Participación de actores y alineación con valores de la población
Finalmente, la equidad no puede lograrse sin la participación diversa de las partes interesadas. Involucrar a pacientes, médicos, cuidadores y responsables en la formulación de políticas resulta vital para garantizar que los modelos se ajusten a los valores y necesidades de las poblaciones a las que están destinados (28).
¿Cómo valorar la complejidad de los modelos predictivos basados en IA en el cáncer?
Complejidades comunes y observaciones censuradas
El desarrollo de un modelo de predicción clínica requiere considerar cualquier estructura de datos compleja. Las complejidades comunes, especialmente en el campo de la oncología, incluyen observaciones censuradas, riesgos competitivos y agrupamiento.
Una observación censurada ocurre cuando se desconoce el momento exacto del evento (como la muerte o la progresión) porque el paciente abandona el estudio antes de que ocurra el evento o este aún no se ha producido al final del período de observación. Si se gestiona incorrectamente (por ejemplo, excluyendo a los pacientes censurados o asumiendo que no experimentaron el evento), puede generar estimaciones erróneas de los riesgos y comprometer la toma de decisiones clínicas.
Los enfoques comunes para gestionar la censura al desarrollar un modelo de predicción incluyen la regresión de riesgos proporcionales de Cox o los análisis de supervivencia aleatorios asociados a redes neuronales (DeepSurv) (29).
Riesgos competitivos y agrupamiento
Los riesgos competitivos se refieren a eventos que dificultan su predicción (puntos críticos asociados a la recurrencia de la enfermedad) y que requieren métodos específicos durante el desarrollo del modelo para evitar la sobreestimación de los riesgos y su validación (30,31).
La agrupación, por ejemplo, dentro del hospital o la ubicación geográfica, también puede ser importante al desarrollar un modelo de predicción clínica, ya que las observaciones dentro del mismo clúster pueden ser similares entre sí, lo que da lugar a grupos distintos pero relacionados. Si se ignora alguna agrupación, los modelos pueden no considerar las similitudes dentro del grupo ni las diferencias entre los grupos, lo que puede dar lugar a estimaciones sesgadas con un rendimiento predictivo reducido y una calibración deficiente.
Considerar cualquier agrupamiento puede ofrecer ventajas en la investigación de modelos de predicción, al permitir explorar la heterogeneidad en el rendimiento de los modelos entre distintos clústeres (32). Identificar las fuentes de heterogeneidad puede facilitar una mejor adaptación y adecuación de los modelos de predicción a clústeres específicos, creando así modelos amplificables y eficaces en diversos entornos. Esta complejidad no siempre es aislada y, en ocasiones, puede coexistir; por lo tanto, a veces se requieren estrategias complejas para integrar los distintos componentes de los enfoques de modelación (33).
Estrategias de validación y generalización
La evaluación de los modelos es un proceso que incluye múltiples etapas para evaluar la capacidad predictiva en distintos contextos y conjuntos de datos. La valoración inicial suele implicar la validación interna mediante técnicas como el Bootstrap o la validación cruzada para cuantificar el sobreajuste y estimar el rendimiento de los datos.
La división de datos se realiza con frecuencia, pero no siempre es prudente ni eficiente; al trabajar con conjuntos de datos grandes o agrupados, la validación interna-externa puede proporcionar más información mediante el entrenamiento iterativo del modelo con datos de ciertos subconjuntos (por institución o región) y su validación con otros conjuntos excluidos.
La validación externa, realizada con datos totalmente independientes, es esencial para evaluar la generalización del modelo a nuevas poblaciones y entornos clínicos en oncología (34,35).
Validez estadística, utilidad clínica e implementación
Los modelos de predicción también deben abordar la validez estadística, la utilidad clínica y la viabilidad de su implementación. La validación estadística debe valorar tanto la discriminación (la capacidad del modelo para distinguir entre pacientes que experimentarán y no experimentarán el resultado) como la calibración (la concordancia entre los resultados predichos y los observados).
Las métricas comunes incluyen el área bajo la curva (AUC; también conocida como el área bajo la curva característica operativa del receptor o estadística C) para la discriminación, y las curvas de calibración para la calibración (36).
La evaluación de la utilidad clínica debe determinar si las decisiones basadas en el modelo conducen a mejores resultados para los pacientes en comparación con la atención estándar. Esta evaluación puede incluir estudios de impacto que midan los cambios en las decisiones clínicas, el uso de recursos, la satisfacción de los pacientes y los resultados de salud asociados a la implementación del modelo.
Con el aumento del número de modelos de IA desarrollados, a menudo se informan otras medidas basadas en la clasificación del rendimiento del modelo. Sin embargo, estas deben interpretarse con precaución, ya que a menudo dependen de umbrales de riesgo arbitrarios y pueden llevar a los usuarios a tomar decisiones de tratamiento sin considerar debidamente el riesgo previsto.
¿Cuáles son las principales barreras para implementar los modelos de IA en oncología?
Barreras de traducción e implementación
Incluso los modelos de predicción metodológicamente sólidos se enfrentan a importantes barreras para su implementación clínica. La brecha entre el desarrollo del modelo y su uso clínico sigue siendo considerable, y pocos modelos se han trasladado con éxito a la práctica habitual.
Diversos factores contribuyen a mantener esta brecha de traducción, entre ellos la participación limitada de las partes interesadas durante el desarrollo del modelo, la evaluación estadística incompleta o deficiente del rendimiento del modelo, la evidencia insuficiente sobre la utilidad clínica más allá del rendimiento estadístico, con una evaluación prácticamente inexistente de los modelos de predicción como intervención para guiar el tratamiento y mejorar los resultados de los pacientes, la ausencia de un plan o intención de implementar el modelo, la falta de interfaces intuitivas que se integren a la perfección en los flujos de trabajo clínicos, la formación y educación inadecuadas para los usuarios potenciales, diferentes obstáculos regulatorios y de implementación. Además, la falta de planes o de un marco para el seguimiento posterior a la implementación.
Abordar estas barreras requiere un enfoque más integral para el desarrollo de modelos que consideren los hechos desde el principio, durante la etapa de diseño, y no como ideas de último momento.
Ejemplos representativos en la práctica oncológica
¿Contamos actualmente con algunos ejemplos representativos y aplicables en la práctica oncológica?
Después de dos décadas de rápida amplificación, contamos con un sinnúmero de modelos de IA aplicables a diversas áreas relacionadas con el diagnóstico y el tratamiento del cáncer. La inteligencia artificial está revolucionando la imagenología del cáncer al aportar una precisión y una velocidad sin precedentes en la detección, caracterización y monitorización de tumores.
Imagenología asistida por IA
Las modalidades de imagenología tradicionales, como radiografías, tomografías computarizadas, resonancias magnéticas, tomografías por emisión de positrones (PET/TAC) y ecografías, son indispensables en oncología, pero interpretar estas imágenes puede resultar complicado debido a la presencia de hallazgos sutiles, a la variabilidad entre los evaluadores y al volumen de la información. La IA aborda estos desafíos aprovechando técnicas de ML (Machine Learning) y DL (Deep Learning) para analizar imágenes que complementen y mejoren la experiencia del radiólogo.
Una de las primeras y más impactantes aplicaciones de la IA en la imagenología del cáncer ha sido el uso para el cribado de cánceres de mama, pulmón y próstata. Los modelos de DL entrenados con grandes conjuntos de datos pueden identificar neoplasias en mamografías, TACs y resonancias magnéticas con una sensibilidad y especificidad que igualan o superan las de los expertos. Por ejemplo, algunos estudios han demostrado que la IA puede reducir las tasas de falsos negativos en el cribado del cáncer de mama y detectar nódulos pulmonares tempranos en TACs de baja dosis, lo que contribuye a diagnósticos más tempranos y mejores resultados (37,38).
Segmentación, seguimiento y radiómica
Los modelos de IA también desempeñan un papel fundamental en la segmentación tumoral, midiendo el tamaño y el volumen tumoral y monitorizando los cambios a lo largo del tiempo. Estas tareas son esenciales para evaluar la respuesta al tratamiento y planificar la cirugía o la radioterapia. La segmentación automatizada impulsada por IA garantiza una mayor reproducibilidad y eficiencia que los métodos manuales (39).
La radiómica, un campo que combina la imagenología y el análisis computacional, utiliza la IA para extraer cientos de características cuantitativas a partir de exploraciones estándar. Estas características proporcionan información sobre la heterogeneidad, el microambiente y la biología del tumor, lo que puede orientar el pronóstico y la selección de la terapia. En la práctica, los modelos radiómicos basados en IA se han utilizado para predecir qué pacientes responderán a la inmunoterapia o a tratamientos dirigidos, lo que permite la personalización de la atención (40).
Oncología de precisión y terapias personalizadas
El auge de la oncología de precisión ha transformado la atención oncológica al adaptar los tratamientos a las características moleculares propias de cada tumor. La IA ha sido fundamental en esta transformación, permitiendo a médicos e investigadores interpretar conjuntos de datos complejos y multidimensionales, y convertirlos en información práctica para terapias personalizadas.
Algoritmos basados en IA analizan los resultados de la secuenciación genómica, los perfiles de expresión génica y los datos proteómicos a una velocidad y escala inalcanzables para los humanos. Al integrar estos hallazgos moleculares con los historiales clínicos y las imágenes, la IA puede identificar mutaciones o biomarcadores que predicen la sensibilidad o la resistencia a terapias específicas (41).
Por ejemplo, algunas plataformas de ML se utilizan para relacionar a los pacientes con terapias dirigidas o inmunoterapias, seleccionando los tratamientos con mayor probabilidad de respuesta según su perfil molecular. Estos modelos predictivos permiten a los oncólogos evitar tratamientos ineficaces y minimizar la toxicidad innecesaria, aumentando así la eficacia y la seguridad de las intervenciones.
Las herramientas de DL pueden estratificar a los pacientes con cáncer de pulmón de células no pequeñas en función de la probabilidad de respuesta a la inmunoterapia, lo que facilita el uso de estrategias terapéuticas personalizadas y rentables (38).
Referencias
Artificial Intelligence Market Global Report by Solution, Technology, End-User, Countries and Company Analysis 2025-2033. Disponible en: https://www.researchandmarkets.com/reports/5659467/ai-in-oncology-market-industry-trends-and-global?srsltid=AfmBOoqXMghz7gKVLEBDECV5JsS1PZGFCAgMHzDYinSiWF_rmIXxwSM4
IQVIA. Digital Health Trends 2024, Implications for Research and Patient Care (Dec 12, 2024). Disponible en: https://www.iqvia.com/insights/the-iqvia-institute/reports-and-publications/reports/digital-health-trends-2024
Mordor Intelligence. AI In Oncology Market Size & Share Analysis – Growth Trends and Forecast (2025 – 2030). Disponible en: https://www.mordorintelligence.com/industry-reports/ai-in-oncology-market
PANCad.ai. PANCREASaver® Innovative AI-assisted Detection Tool for Pancreatic Cancer. Disponible en: https://www.pancad.ai/en/products/category/37
Chen PT, Wu T, Wang P, Chang D, Liu KL, Wu MS, et al. Pancreatic Cancer Detection on CT Scans with Deep Learning: A Nationwide Population-based Study. Radiology. 2023 Jan;306(1):172-182. doi: 10.1148/radiol.220152.
ARTERA. High Risk Insights now available for ArteraAI Prostate Test (2025). Disponible en: https://artera.ai/
Clairity Inc. CLAIRITY BREAST. Disponible en: https://clairity.com/
Vyas DA, Eisenstein LG, Jones DS. Hidden in Plain Sight – Reconsidering the Use of Race Correction in Clinical Algorithms. N Engl J Med. 2020 Aug 27;383(9):874-882. doi: 10.1056/NEJMms2004740.
Riverian Technologies. ClearRead™ CT. Disponible en: https://blackfordanalysis.com/ai-portfolio-riverain-clearread-ct
Lo SB, Freedman MT, Gillis LB, White CS, Mun SK. JOURNAL CLUB: Computer-Aided Detection of Lung Nodules on CT With a Computerized Pulmonary Vessel Suppressed Function. AJR Am J Roentgenol. 2018 Mar;210(3):480-488. doi: 10.2214/AJR.17.18718.
Good Machine Learning Practice for Medical Device Development: Guiding Principles (March 2025). Disponible en: https://www.fda.gov/medical-devices/software-medical-device-samd/good-machine-learning-practice-medical-device-development-guiding-principles
Hueting TA, van Maaren MC, Hendriks MP, Koffijberg H, Siesling S. The majority of 922 prediction models supporting breast cancer decision-making are at high risk of bias. J Clin Epidemiol. 2022 Dec;152:238-247. doi: 10.1016/j.jclinepi.2022.10.016.
Feng Q, May MT, Ingle S, Lu M, Yang Z, Tang J. Prognostic Models for Predicting Overall Survival in Patients with Primary Gastric Cancer: A Systematic Review. Biomed Res Int. 2019 Sep 18;2019:5634598. doi: 10.1155/2019/5634598.
Moons KGM, Damen JAA, Kaul T, et al. PROBAST+AI: an updated quality, risk of bias, and applicability assessment tool for prediction models using regression or artificial intelligence methods. BMJ 2025; 388.
Collins GS, Moons KGM. Comparing risk prediction models. BMJ 2012; 344.
Collins GS, Chester-Jones M, Gerry S, Ma J, Matos J, Sehjal J, et al. Clinical prediction models using machine learning in oncology: challenges and recommendations. BMJ Oncol. 2025 Oct 7;4(1):e000914. doi: 10.1136/bmjonc-2025-000914.
Lekadir K, Frangi AF, Porras AR. FUTURE-AI: international consensus guideline for trustworthy and deployable artificial intelligence in healthcare. BMJ 2025; 388.
Tsegaye B, Snell KIE, Archer L, Kirtley S, Riley RD, Sperrin M, et al. Larger sample sizes are needed when developing a clinical prediction model using machine learning in oncology: methodological systematic review. J Clin Epidemiol. 2025 Apr;180:111675. doi: 10.1016/j.jclinepi.2025.111675.
Christodoulou E, van Smeden M, Edlinger M, Timmerman D, Wanitschek M, Steyerberg EW, et al. Adaptive sample size determination for the development of clinical prediction models. Diagn Progn Res. 2021 Mar 22;5(1):6. doi: 10.1186/s41512-021-00096-5.
van den Goorbergh R, van Smeden M, Timmerman D, Van Calster B. The harm of class imbalance corrections for risk prediction models: illustration and simulation using logistic regression. J Am Med Inform Assoc. 2022 Aug 16;29(9):1525-1534. doi: 10.1093/jamia/ocac093.
Murad H, Dankner R, Berlin A, Olmer L, Freedman LS. Imputing missing time-dependent covariate values for the discrete time Cox model. Stat Methods Med Res. 2020 Aug;29(8):2074-2086. doi: 10.1177/0962280219881168.
Sisk R, Sperrin M, Peek N, van Smeden M, Martin GP. Imputation and missing indicators for handling missing data in the development and deployment of clinical prediction models: A simulation study. Stat Methods Med Res. 2023 Aug;32(8):1461-1477. doi: 10.1177/09622802231165001.
Hirko KA, Rocque G, Reasor E, Taye A, Daly A, Cutress RI, et al. The impact of race and ethnicity in breast cancer-disparities and implications for precision oncology. BMC Med. 2022 Feb 11;20(1):72. doi: 10.1186/s12916-022-02260-0.
Dankwa-Mullan I, Weeraratne D. Artificial Intelligence and Machine Learning Technologies in Cancer Care: Addressing Disparities, Bias, and Data Diversity. Cancer Discov. 2022 Jun 2;12(6):1423-1427. doi: 10.1158/2159-8290.CD-22-0373.
Ghassemi M, Gusev A. Limiting bias in AI models for improved and equitable cancer care. Nat Rev Cancer. 2024 Dec;24(12):823-824. doi: 10.1038/s41568-024-00739-x.
Ladin K, Cuddeback J, Duru OK, Goel S, Harvey W, Park JG, et al. Guidance for unbiased predictive information for healthcare decision-making and equity (GUIDE): considerations when race may be a prognostic factor. NPJ Digit Med. 2024 Oct 19;7(1):290. doi: 10.1038/s41746-024-01245-y.
Zink A, Obermeyer Z, Pierson E. Race adjustments in clinical algorithms can help correct for racial disparities in data quality. Proc Natl Acad Sci U S A. 2024 Aug 20;121(34):e2402267121. doi: 10.1073/pnas.2402267121.
Vyas DA, Eisenstein LG, Jones DS. Hidden in Plain Sight – Reconsidering the Use of Race Correction in Clinical Algorithms. N Engl J Med. 2020 Aug 27;383(9):874-882. doi: 10.1056/NEJMms2004740.
Katzman JL, Shaham U, Cloninger A, Bates J, Jiang T, Kluger Y. DeepSurv: personalized treatment recommender system using a Cox proportional hazards deep neural network. BMC Med Res Methodol. 2018 Feb 26;18(1):24. doi: 10.1186/s12874-018-0482-1.
Kantidakis G, Putter H, Litière S, Fiocco M. Statistical models versus machine learning for competing risks: development and validation of prognostic models. BMC Med Res Methodol. 2023 Feb 24;23(1):51. doi: 10.1186/s12874-023-01866-z.
de Jong VMT, Moons KGM, Eijkemans MJC, Riley RD, Debray TPA. Developing more generalizable prediction models from pooled studies and large clustered data sets. Stat Med. 2021 Jul 10;40(15):3533-3559. doi: 10.1002/sim.8981.
Riley RD, Ensor J, Snell KI, Debray TP, Altman DG, Moons KG, et al. External validation of clinical prediction models using big datasets from e-health records or IPD meta-analysis: opportunities and challenges. BMJ. 2016 Jun 22;353:i3140. doi: 10.1136/bmj.i3140. Erratum in: BMJ. 2019 Jun 25;365:l4379. doi: 10.1136/bmj.l4379.
Collins GS, Dhiman P, Ma J, Schlussel MM, Archer L, Van Calster B, et al. Evaluation of clinical prediction models (part 1): from development to external validation. BMJ. 2024 Jan 8;384:e074819. doi: 10.1136/bmj-2023-074819.
Calster B, Collins GS, Vickers AJ. Performance evaluation of predictive AI models to support medical decisions: Overview and guidance. arXiv 2025.
Vickers AJ, Van Calster B, Steyerberg EW. Net benefit approaches to the evaluation of prediction models, molecular markers, and diagnostic tests. BMJ. 2016 Jan 25;352:i6. doi: 10.1136/bmj.i6.
TRIPOD+AI statement: updated guidance for reporting clinical prediction models that use regression or machine learning methods. BMJ. 2024 Apr 18;385:q902. doi: 10.1136/bmj.q902.
Yala A, Mikhael PG, Strand F, Lin G, Smith K, Wan YL, et al. Toward robust mammography-based models for breast cancer risk. Sci Transl Med. 2021 Jan 27;13(578):eaba4373. doi: 10.1126/scitranslmed.aba4373.
Ardila D, Kiraly AP, Bharadwaj S, Choi B, Reicher JJ, Peng L, et al. End-to-end lung cancer screening with three-dimensional deep learning on low-dose chest computed tomography. Nat Med. 2019 Jun;25(6):954-961. doi: 10.1038/s41591-019-0447-x. Epub 2019 May 20. Erratum in: Nat Med. 2019 Aug;25(8):1319. doi: 10.1038/s41591-019-0536-x.
Bontempi D, Nuernberg L, Pai S, Krishnaswamy D, Thiriveedhi V, Hosny A, et al. End-to-end reproducible AI pipelines in radiology using the cloud. Nat Commun. 2024 Aug 13;15(1):6931. doi: 10.1038/s41467-024-51202-2.
Aerts HJ, Velazquez ER, Leijenaar RT, Parmar C, Grossmann P, Carvalho S, et al. Decoding tumour phenotype by noninvasive imaging using a quantitative radiomics approach. Nat Commun. 2014 Jun 3;5:4006. doi: 10.1038/ncomms5006.
Kourou K, Exarchos TP, Exarchos KP, Karamouzis MV, Fotiadis DI. Machine learning applications in cancer prognosis and prediction. Comput Struct Biotechnol J. 2014 Nov 15;13:8-17. doi: 10.1016/j.csbj.2014.11.005.
