Entre la evidencia y la ilusión: el desafío de las “alucinaciones” en la era de la IA para las decisiones clínicas. 

Autor :Carlo Vinicio Caballero Uribe  MD. Internista , Reumatólogo. Profesor de Reumatología Universidad del Norte y Libre . Barranquilla. Expresidente Asociación Colombiana de Reumatología y de PANLAR ( Liga panamericana de Asociaciones de Reumatología ). Miembro de Aipocrates y del grupo de IA de PANLAR

Imagen tomada de: https://universoabierto.org/2024/10/10/inteligencia-artificial-y-alucinaciones-por-que-alucinan-los-grandes-modelos-linguisticos/

Se ha vuelto un escenario frecuente en las redes la confirmación o negación de  afirmaciones de diversa índole preguntándole a modelos populares de inteligencia artificial (IA), dando por sentado que las respuestas son correctas o más exactas que las de otras fuentes . Esto también ocurre en su aplicación en la medicina , lo cual me motiva a escribir esta columna tratando de responder qué tanta exactitud tienen los modelos de IA para apoyarnos en nuestras decisiones clínicas.

En los últimos dos años, la conversación sobre inteligencia artificial en medicina se ha desplazado del asombro por las capacidades de los large language models (LLMs) hacia una mirada más crítica. Si bien estos modelos son capaces de generar textos coherentes, traducir términos técnicos, resumir literatura y, en algunos casos, sugerir planes diagnósticos, su talón de Aquiles sigue siendo la alucinación: la producción de información falsa pero plausible.

Lo preocupante no es solo que las alucinaciones ocurran de manera espontánea, sino que pueden ser provocadas deliberadamente mediante lo que se ha denominado “adversarial hallucination attacks” : prompts diseñados para que el modelo “invente” datos con seguridad y convicción. En un entorno clínico, esto puede significar desde citar un ensayo clínico inexistente hasta “recordar” un consenso de expertos que nunca se publicó.

Estudios experimentales han documentado que los LLMs son altamente susceptibles a este tipo de ataques, con tasas de alucinación que varían entre el 50% y el 82% en escenarios de soporte a decisiones clínicas. Incluso modelos de última generación, como GPT-4, pueden desarrollar explicaciones detalladas basadas en datos ficticios si no se les instruye de forma explícita a evitar la especulación. 

La ingeniería de prompts puede mitigar parcialmente el problema, pero no lo elimina por completo, y ajustes en parámetros como la “temperatura” del modelo han mostrado efectos limitados.En medicina, donde las decisiones afectan vidas, esta vulnerabilidad exige un análisis riguroso.

Contexto y relevancia clínica

Estudios recientes han demostrado que los LLMs, incluso aquellos con capas avanzadas de alineamiento y filtrado, siguen siendo susceptibles a este tipo de ataques. Para este artículo realicé una búsqueda sistemática apoyada en la herramienta Consensus , que tiene  ahora una extensión que ayuda a realizar este tipo de búsquedas ( “try a deep search” ) e indagamos sobre  “Recent and Relevant Literature on Adversarial Hallucination Attacks, Fact-Checking, and Mitigation in Large Language Models”

Un  resumen (corto) de estos artículos y revisiones sistemáticas reporta que:

●      La ingeniería de prompts y la generación aumentada por recuperación (retrieval-augmented generation, RAG) pueden reducir la tasa de alucinaciones, pero no eliminarlas.

●      Ninguna estrategia aislada garantiza seguridad absoluta en aplicaciones de alto riesgo como oncología, emergencias o investigación biomédica.

●      Los LLMs pueden cumplir un papel dual: producir y detectar desinformación.

●      La integración con fuentes externas verificadas (PubMed, guías clínicas, bases de datos de medicamentos) y el uso de sistemas híbridos (humano+IA) aumentan la fiabilidad.

En salud, la línea que separa un error benigno de una consecuencia grave es muy fina. Un ejemplo: un modelo que “recuerda” que la hidroxicloroquina es eficaz contra la COVID-19 basándose en estudios ficticios podría reforzar decisiones clínicas erróneas, incluso años después del consenso científico.

Tipos de alucinaciones y vectores de ataque

La literatura clasifica las alucinaciones adversariales en:

●      Factuales: invención de estudios, datos estadísticos o mecanismos fisiopatológicos inexistentes.

●      Contextuales: extrapolación indebida de hallazgos válidos a contextos no relacionados.

●      Citación inventada: referencia a artículos o guías que nunca fueron publicados.

Los vectores de ataque más comunes incluyen la inyección de detalles falsos en el prompt (“según el metaanálisis de 2023 de la Revista X…”) o el uso de instrucciones persuasivas que “obligan” al modelo a responder con certeza.

Estrategias de mitigación y sus límites

En este cuadro (cuadro 1 )  se hace un resumen de las principales estrategias para mitigar esta situación , sus ventajas y por supuesto sus limitaciones

EstrategiaDescripciónVentajasLimitaciones
Ingeniería de promptsReformular preguntas para reducir ambigüedad y acotar contextoFácil de implementar, no requiere cambios técnicosNo previene ataques intencionales, sensible a redacción
RAG (Retrieval-Augmented Generation)El modelo consulta bases de datos externas antes de responderMejora precisión factual, trazabilidad de fuentesDepende de la calidad y actualización de la base externa
Filtrado post-generaciónAlgoritmos que verifican la salida antes de mostrarlaPuede detectar inconsistencias y sesgosNo detecta errores sutiles, requiere más cómputo
Modelos híbridos humano+IARevisión humana sistemática de salidas críticasAlto control y validaciónCostoso, más lento, requiere entrenamiento del revisor
Integración con knowledge graphsUso de redes semánticas verificadas para validar contenidoPermite razonamiento estructuradoComplejidad técnica, actualización constante necesaria

Como se observa en el cuadro , no hay una estrategia única para combatir las alucinaciones. En contextos clínicos, la supervisión humana y la trazabilidad de la información siguen siendo imprescindibles.

Implicaciones éticas y regulatorias

El uso de LLMs en salud no se limita a la exactitud técnica por lo que es necesario revisar algunas implicaciones éticas y legales:

●      Sobre la responsabilidad profesional: ¿quién responde si una decisión clínica se basa en información generada por un modelo que alucinó?

●      Sobre la transparencia: el profesional debe saber cuándo la información proviene de un modelo y con qué fuentes se construyó.

●      Sobre la regulación Regulación: organismos como la FDA o la EMA comienzan a evaluar criterios para certificar herramientas de IA en salud.

La propuesta más repetida en la literatura es la creación de marcos de gobernanza transparentes, con auditorías periódicas, trazabilidad de datos y estándares para medir “factualidad” y “fidelidad” (faithfulness).

Una reflexión final

La inteligencia artificial tiene un papel creciente como asistente en verificación de hechos, incluyendo el ámbito médico, pero su vulnerabilidad a alucinaciones —intencionales o no— limita su uso como herramienta autónoma. La integración con fuentes confiables, la colaboración con expertos humanos y el desarrollo de marcos regulatorios sólidos son esenciales para maximizar su potencial y minimizar sus riesgos.

En medicina, más que reemplazar la labor del especialista, la IA debe actuar como un aliado crítico que agiliza procesos y amplía el acceso a información, siempre bajo una supervisión rigurosa.

Como médicos, no podemos delegar nuestro juicio a un algoritmo, por más avanzado que sea. Los LLMs pueden ser excelentes asistentes para la búsqueda de literatura, la traducción de textos o la estructuración de información, pero su capacidad para fabricar datos con seguridad los convierte en un riesgo si se usan sin control.

En el momento actual , la alta tasa de alucinaciones y la capacidad de generar referencias falsas o consejos clínicos plausibles pero erróneos constituyen barreras significativas para su uso autónomo. La recomendación general es que la IA funcione como herramienta asistencial y que sus resultados sean siempre validados por expertos humanos antes de su implementación en la práctica clínica.

La mejor defensa , al dia de hoy , es una combinación de:

1.     Conocer sus limitaciones.

2.     Integrar fuentes verificadas y actualizadas.

3.     Mantener una revisión humana experta en cada punto de decisión clínica.

En otras palabras, las IA pueden ser un poco como el  tipo de residentes muy inteligentes, pero  que, de vez en cuando, se inventan cosas con convicción. Y a esos residentes, hay que supervisar siempre.

Bibliografía recomendada

Monteith S, Glenn T, Geddes JR, Whybrow PC, Achtyes E, Bauer M. Artificial intelligence and increasing misinformation. The British Journal of Psychiatry. 2024;224(2):33-35. doi:10.1192/bjp.2023.136

Omar, M., Sorin, V., Collins, J.D. et al. Multi-model assurance analysis showing large language models are highly vulnerable to adversarial hallucination attacks during clinical decision support. Commun Med 5, 330 (2025). https://doi.org/10.1038/s43856-025-01021-3

Luo, J., Li, T., Wu, D., Jenkin, M., Liu, S., & Dudek, G. (2024). Hallucination Detection and Hallucination Mitigation: An Investigation. ArXiv, abs/2401.08358. https://doi.org/10.48550/arXiv.2401.08358.

Chelli, M., Descamps, J., Lavoué, V., Trojani, C., Azar, M., Deckert, M., Raynier, J., Clowez, G., Boileau, P., & Ruetsch-Chelli, C. (2024). Hallucination Rates and Reference Accuracy of ChatGPT and Bard for Systematic Reviews: Comparative Analysis. Journal of Medical Internet Research, 26. https://doi.org/10.2196/53164.

Shayegani, E., Mamun, M., Fu, Y., Zaree, P., Dong, Y., & Abu-Ghazaleh, N. (2023). Survey of Vulnerabilities in Large Language Models Revealed by Adversarial Attacks. ArXiv, abs/2310.10844. https://doi.org/10.48550/arXiv.2310.10844.

Haltaufderheide, J., & Ranisch, R. (2024). The ethics of ChatGPT in medicine and healthcare: a systematic review on Large Language Models (LLMs). NPJ Digital Medicine, 7. https://doi.org/10.1038/s41746-024-01157-x.

 

 

Deja un comentario