Ivana Frías. MD, Residente de primer año de la especialidad de Genética de la UANL (México). Miembro de AIpocrates.

El estudio de los sistemas biológicos ha dado un giro radical con el desarrollo de tecnologías de alta resolución y rendimiento, que han permitido el surgimiento de las llamadas “ciencias ómicas”. Estas disciplinas, como la genómica, transcriptómica, proteómica y metabolómica, facilitan el análisis masivo de información biológica. A este enfoque se suman capas adicionales como la epigenómica y la interactómica, que abordan fenómenos regulatorios y de interacción molecular, enriqueciendo nuestra visión sobre los mecanismos celulares en la salud y la enfermedad (Dai & Shen, 2022).
La integración de estas diversas capas de datos, conocida como enfoque multi-ómico, ha ampliado considerablemente nuestra comprensión de la biología humana. Este paradigma holístico permite analizar simultáneamente distintos niveles de regulación y función celular, generando una cantidad sin precedentes de datos biomoleculares.
Un punto de inflexión en esta revolución fue la culminación del Proyecto Genoma Humano en 2003, que proporcionó por primera vez la secuencia completa del ADN humano. Aunque no todas sus funciones se comprendían entonces, este logro marcó el inicio de una nueva era en la medicina y la investigación genética. Sin embargo, pronto se hizo evidente que el verdadero reto no era obtener la gran cantidad de datos genómicos, sino interpretarlo con precisión y aplicarlo de forma útil.
Hoy en día, la genómica genera más datos de los que somos capaces de analizar eficientemente. Cada genoma humano secuenciado puede producir cerca de 100 gigabytes de datos, y se prevé que la acumulación global de datos genómicos alcance hasta 40 exabytes, una cifra colosal comparable al tamaño del Sol si un gigabyte fuera del tamaño de la Tierra (Stephens et al., 2015).
Esta columna aborda cómo los datos se han convertido en el eje central de la genómica contemporánea, desde su generación y procesamiento, hasta su interpretación asistida por inteligencia artificial (IA), y cómo estos avances están redefiniendo la medicina personalizada y la investigación biomédica.
La revolución de los datos en genómica
Con la llegada de tecnologías de secuenciación de nueva generación (NGS), como la secuenciación del genoma completo (WGS) o del exoma completo (WES), la genómica ha evolucionado de ser una disciplina enfocada en la investigación básica a convertirse en un pilar fundamental de la medicina moderna. Cada uno de nosotros posee en el genoma aproximadamente 3 mil millones de pares de bases, y la secuenciación de este material genético produce una cantidad masiva de datos, la cual requiere de infraestructuras robustas para su almacenamiento, análisis e interpretación.
Instituciones de vanguardia como el Broad Institute y el Wellcome Sanger Institute lideran el desarrollo de estándares que permiten maximizar la utilidad clínica y científica de estos datos. Por lo que no es de extrañar que la genómica se haya consolidado como una de las áreas de big data con mayor crecimiento a nivel mundial.
Calidad y utilidad de los datos genómicos
La cantidad de datos disponibles no siempre garantiza su utilidad. Para que los datos genómicos sean verdaderamente valiosos, deben cumplir criterios de calidad: precisión, completitud y anotaciones confiables. La variabilidad entre distintos pipelines de análisis y la ausencia de estandarización pueden comprometer la interpretación de resultados.
Recursos como gnomAD, ClinVar, OMIM y DECIPHER se han convertido en pilares fundamentales para la interpretación de variantes genéticas, al ofrecer información sobre su frecuencia en poblaciones diversas y su posible relación con enfermedades. No obstante, la calidad de estas bases depende directamente de la solidez de los datos originales y de las metodologías de anotación empleadas.
Asimismo, los metadatos clínicos —incluyendo el fenotipo, antecedentes familiares y contexto poblacional— son claves para otorgar significado clínico a las variantes. Herramientas como Human Phenotype Ontology buscan estandarizar esta información para facilitar la correlación entre genotipo y fenotipo.
Inteligencia artificial y datos genómicos: una relación simbiótica
La IA se ha convertido en un aliado esencial para extraer valor de los datos genómicos. Frente a la avalancha de información que generan las tecnologías de secuenciación, los algoritmos de aprendizaje automático ofrecen una capacidad única para detectar patrones complejos y relaciones no evidentes (Vilhekar et al., 2024).
Herramientas como DeepVariant, desarrollada por Google, que utiliza redes neuronales para identificar variantes con una precisión excepcional a partir de datos de secuenciación, ha demostrado reducir la tasa de error en más del 50%. Asimismo, AlphaFold, capaz de predecir estructuras proteicas, facilita la comprensión de las implicaciones funcionales de variantes patogénicas poco frecuentes. Estos ejemplos subrayan el vasto potencial de la IA para optimizar tanto la calidad de los análisis como su relevancia funcional (Poplin et al., 2018; Jumper et al., 2021).

Los modelos basados en IA también han demostrado ser útiles en la predicción fenotípica. Sin embargo, tal como señalan Álvarez-Machancoses et al. (2020), los problemas de predicción en medicina de precisión suelen estar «subdeterminados», es decir, hay más variables genéticas que muestras disponibles. Esto hace necesario utilizar enfoques como el muestreo robusto, que exploran múltiples combinaciones genéticas con alta capacidad discriminativa, reduciendo el sesgo introducido por datos ruidosos o desequilibrados.
Este enfoque de aprendizaje profundo, basado en la exploración del espacio de incertidumbre genética, contrasta con métodos deterministas que asumen relaciones lineales entre genes y enfermedad. En este sentido, la IA no solo amplía el rango de predicción, sino que permite descubrir nuevos mecanismos biológicos, incluso cuando el modelo físico que gobierna esos procesos es desconocido.
IA y medicina personalizada: predicción, diagnóstico y tratamiento
El papel de la IA en la medicina personalizada va mucho más allá del diagnóstico genético. En la práctica clínica, ya se están desarrollando modelos que predicen el riesgo de enfermedades antes de que se manifiesten. Por ejemplo, redes neuronales artificiales han sido utilizadas para predecir el riesgo de infarto (Li et al., 2019), cáncer colorrectal (Cruz et al., 2017) y enfermedades neurodegenerativas (Dagliati et al., 2019).
En oncología, el uso de algoritmos de aprendizaje supervisado ha permitido clasificar variantes genéticas como patogénicas o benignas con base en miles de muestras etiquetadas. Modelos como los desarrollados por Coudray et al. (2018) lograron predecir mutaciones somáticas en cáncer de pulmón no microcítico usando solo imágenes histopatológicas, con áreas bajo la curva (AUROC) de hasta 0.85 para ciertos genes.
En su estudio sobre el cáncer de mama triple negativo, Álvarez-Machancoses y colaboradores utilizaron algoritmos avanzados, como redes bayesianas, samplers aleatorios y validación cruzada, para identificar firmas genéticas relacionadas con metástasis y supervivencia. Estas firmas no solo facilitaron una comprensión más profunda de las vías alteradas, como la señalización de P53 o TGF-β, sino que también ayudaron a proponer estrategias terapéuticas innovadoras, incluido el reposicionamiento de fármacos. En cuanto al tratamiento, la IA se aplica en el diseño de medicamentos personalizados, enfrentando uno de los principales retos en el desarrollo farmacológico: el alto índice de fracaso en ensayos clínicos, a menudo debido a una comprensión limitada de los mecanismos moleculares subyacentes. En este contexto, la IA y el análisis genómico avanzado permiten identificar rutas alteradas y sugerir tratamientos específicos, incluidos los compuestos ya utilizados en otras indicaciones. Un ejemplo de ello son fármacos como la geldanamicina y la trichostatina A, que han sido propuestos para el tratamiento del cáncer de mama agresivo (Álvarez-Machancoses et al., 2020).
Genómica, IA y enfermedades raras
Uno de los campos donde la IA ha mostrado mayor impacto es en las enfermedades poco prevalentes, donde el diagnóstico es difícil y los datos son escasos. En estos casos, el uso de IA para realizar análisis de fenotipos, incluso a partir de imágenes faciales (como en herramientas tipo DeepGestalt, un fenotipado de nueva generación), ha facilitado la identificación de síndromes genéticos gracias a los avances recientes en las redes neuronales convolucionales profundas.

Además, los métodos de muestreo genético robusto han sido aplicados con éxito para identificar biomarcadores en enfermedades como la esclerosis múltiple, sarcopenia y enfermedades musculares raras, logrando distinguir pacientes con diferentes grados de progresión (Álvarez-Machancoses et al., 2020). Esto sugiere que la IA no solo puede mejorar el diagnóstico, sino también la estratificación de pacientes y el diseño de ensayos clínicos más efectivos.
Calidad de los datos: el talón de Aquiles de la IA en genómica
El potencial de la IA está intrínsecamente ligado a la calidad de los datos que analiza. Como advierte Fernández-Martínez (2020), “la calidad de las predicciones nunca superará la calidad de los datos de entrenamiento”. Datos mal curados, incompletos o sesgados pueden generar modelos poco confiables.
Por ello, es fundamental asegurar que los datos genómicos estén bien anotados, contextualizados clínicamente y validados en cohortes externas. La interpretación funcional de variantes sigue siendo uno de los desafíos más importantes de la genómica clínica, donde la IA puede aportar, pero siempre requerirá validación experimental o en entornos clínicos reales.
Conclusión
La integración de la genómica y la IA ha transformado la forma en que entendemos y tratamos las enfermedades. Gracias a las tecnologías de NGS y el análisis de datos masivos, hemos alcanzado un nivel de conocimiento sin precedentes sobre los mecanismos biológicos subyacentes a la salud y la enfermedad. Sin embargo, aunque la cantidad de datos disponibles es abrumadora, su calidad y la capacidad para interpretarlos correctamente siguen siendo desafíos cruciales.
La IA se ha consolidado como una herramienta indispensable para enfrentar este reto, permitiendo la detección de patrones complejos y la predicción de riesgos de enfermedades antes de su manifestación clínica. Además, en el ámbito del tratamiento, la IA ha impulsado el diseño de medicamentos personalizados y el reposicionamiento de fármacos, lo que abre nuevas posibilidades terapéuticas, especialmente en enfermedades complejas como el cáncer.
El papel de la IA también ha sido crucial en el diagnóstico de enfermedades raras, donde los datos son limitados y el diagnóstico es difícil. Las tecnologías de fenotipado basadas en IA, como las redes neuronales convolucionales, están facilitando la identificación de síndromes genéticos y mejorando la estratificación de pacientes.
No obstante, el verdadero potencial de la IA en la medicina genómica depende de la calidad de los datos con los que se alimenta. Es fundamental que los datos sean precisos, completos y contextualizados clínicamente para que los modelos de IA puedan ofrecer predicciones confiables. A pesar de los avances, la validación experimental y clínica sigue siendo necesaria para asegurar que las predicciones de la IA se traduzcan en beneficios reales para los pacientes. La combinación de datos de alta calidad, tecnologías de IA avanzadas y enfoques multidisciplinarios será la clave para avanzar en la medicina personalizada y en la comprensión de las enfermedades complejas en los próximos años.

Referencias:
- 1000 Genomes Project Consortium, Auton, A., Brooks, L. D., Durbin, R. M., Garrison, E. P., Kang, H. M., Korbel, J. O., Marchini, J. L., McCarthy, S., McVean, G. A., & Abecasis, G. R. (2015). A global reference for human genetic variation. Nature, 526(7571), 68–74. https://doi.org/10.1038/nature15393
- Álvarez-Machancoses, Ó., DeAndrés Galiana, E. J., Cernea, A., Fernández de la Viña, J., & Fernández-Martínez, J. L. (2020). On the Role of Artificial Intelligence in Genomics to Enhance Precision Medicine. Pharmacogenomics and personalized medicine, 13, 105–119. https://doi.org/10.2147/PGPM.S205082
- Jumper, J., Evans, R., Pritzel, A., Green, T., Figurnov, M., Ronneberger, O., Tunyasuvunakool, K., Bates, R., Žídek, A., Potapenko, A., Bridgland, A., Meyer, C., Kohl, S. A. A., Ballard, A. J., Cowie, A., Romera-Paredes, B., Nikolov, S., Jain, R., Adler, J., … Hassabis, D. (2021). Highly accurate protein structure prediction with AlphaFold. Nature, 596(7873), 583-589. https://doi.org/10.1038/s41586-021-03819-2
- Karczewski, K. J., Francioli, L. C., Tiao, G., Cummings, B. B., Alföldi, J., Wang, Q., Collins, R. L., Laricchia, K. M., Ganna, A., Birnbaum, D. P., Gauthier, L. D., Brand, H., Solomonson, M., Watts, N. A., Rhodes, D., Singer-Berk, M., England, E. M., Seaby, E. G., Kosmicki, J. A., … MacArthur, D. G. (2020). The mutational constraint spectrum quantified from variation in 141,456 humans. Nature, 581(7809), 434-443. https://doi.org/10.1038/s41586-020-2308-7
- Landrum, M. J., Lee, J. M., Benson, M., Brown, G. R., Chao, C., Chitipiralla, S., Gu, B., Hart, J., Hoffman, D., Jang, W., Karapetyan, K., Katz, K., Liu, C., Maddipatla, Z., Malheiro, A., McDaniel, K., Ovetsky, M., Riley, G., Zhou, G., Holmes, J. B., … Maglott, D. R. (2018). ClinVar: improving access to variant interpretations and supporting evidence. Nucleic acids research, 46(D1), D1062–D1067. https://doi.org/10.1093/nar/gkx1153
- Poplin, R., Chang, P.-C., Alexander, D., Schwartz, S., Colthurst, T., Ku, A., Newburger, D., Dijamco, J., Nguyen, N., Afshar, P. T., Gross, S. S., Dorfman, L., McLean, C. Y., & DePristo, M. A. (2018). A universal SNP and small-indel variant caller using deep neural networks. Nature Biotechnology, 36(10), 983-987. https://doi.org/10.1038/nbt.4235
- Stephens, Z. D., Lee, S. Y., Faghri, F., Campbell, R. H., Zhai, C., Efron, M. J., Iyer, R., Schatz, M. C., Sinha, S., & Robinson, G. E. (2015). Big Data: Astronomical or Genomical?. PLoS biology, 13(7), e1002195. https://doi.org/10.1371/journal.pbio.1002195
- Vilhekar, R. S., & Rawekar, A. (2024). Artificial Intelligence in Genetics. Cureus, 16(1), e52035. https://doi.org/10.7759/cureus.52035
