Evaluación de IA Conversacional Generativa en Salud

Alejandro Hernández-Arango MD. MS. Medicina Interna – Informática Médica. Universidad de Antioquia. Hospital Alma Mater. Miembro Fundador de AIpocrates.

Imagen creada con Bing IA

Introducción

Existe una clara necesidad de métricas unificadas en el contexto de la Evaluación de IA Conversacional Generativa en Salud. Esta necesidad surge debido a las limitaciones significativas de las métricas de evaluación existentes, tanto genéricas para Modelos de Lenguaje Grandes (LLMs) como algunas específicas para chatbots de salud.

La naturaleza crítica de las aplicaciones de salud hace indispensable el establecimiento de un conjunto de métricas fundacionales unificado y completo. Esto permitiría una evaluación meticulosa del rendimiento y las capacidades de los modelos, la identificación de posibles errores y la implementación de mecanismos de retroalimentación efectivos. La finalidad última de estas métricas unificadas sería impulsar avances significativos en la prestación de servicios de salud robustos, precisos y confiables.

El estudio propone una categorización exhaustiva de métricas esenciales para llevar a cabo una evaluación centrada en el usuario de los chatbots de salud basados en LLMs. Esta categorización busca distinguir su enfoque de los estudios existentes en este campo.

Para esto primero es crucial considerar tres variables de confusión:

Tipo de usuario: Las necesidades y expectativas de los pacientes, enfermeras, médicos de atención primaria o especialistas pueden variar significativamente.

Tipo de dominio: Los chatbots pueden diseñarse para consultas generales de salud o para dominios específicos como la salud mental o el cáncer.

Tipo de tarea: Los chatbots pueden realizar diversas funciones, como generar informes médicos, realizar diagnósticos o actuar como asistentes.

La definición y la puntuación de las métricas pueden depender de estas variables.

Las métricas propuestas se agrupan en cuatro categorías principales, basadas en sus dependencias de las variables de confusión identificadas (tipo de usuario, tipo de dominio y tipo de tarea):

Precisión (Accuracy): Estas métricas evalúan la gramática, la sintaxis, la semántica y la estructura general de las respuestas generadas por los chatbots de salud. La definición de estas métricas depende de los tipos de dominio y tarea involucrados. Por ejemplo, la «robustez» se evalúa de manera diferente para un asistente de salud mental que para un chatbot de diagnóstico general. Es importante destacar que las métricas de exactitud generalmente no varían según el tipo de usuario, ya que el objetivo final es la máxima precisión independientemente del destinatario. Dentro de esta categoría, se mencionan métricas intrínsecas y extrínsecas

Métricas Intrínsecas: Se emplean para abordar problemas lingüísticos y de relevancia de los chatbots de salud en cada conversación individual entre el usuario y el chatbot6 . Estas métricas aseguran que la respuesta generada sea gramaticalmente correcta y pertinente a las preguntas. La Tabla 1 del artículo resume las métricas intrínsecas utilizadas para evaluar LLMs, incluyendo BLEU, ROUGE, Perplejidad, BERTScore, METEOR, Precisión, Recall, F1-Score, TER, MoverScore y NIST7 …. Sin embargo, el artículo señala que estas métricas se basan únicamente en la similitud de la forma superficial y en perspectivas específicas del lenguaje, lo que las hace inadecuadas para los chatbots de salud al carecer de la capacidad de capturar elementos esenciales como la semántica, el contexto y las dependencias distantes, así como la perspectiva humana.

Métricas extrínsecas: incluyen el SSI (Sensatez, Especificidad e Interés), que evalúa el flujo, la lógica y la coherencia de las respuestas; la Robustez, que mide la resiliencia del chatbot frente a perturbaciones o ataques adversarios; la Generalización, que analiza la capacidad de aplicar conocimientos a tareas nuevas; la Concisión, que valora la claridad y brevedad en la comunicación; la Actualización, que verifica que la información se base en directrices y evidencia reciente mediante modelos de recuperación; y la Fundamentación, que asegura que las respuestas estén respaldadas por conocimientos fácticos y confiables.

Confiabilidad (Trustworthiness): Este grupo de métricas es crucial para asegurar la fiabilidad y la conciencia de las respuestas de los chatbots de salud. Se definen en función del tipo de usuario. Las cuatro métricas propuestas son seguridad, privacidad, sesgo e interpretabilidad. Por ejemplo, el nivel deseado de interpretabilidad puede variar entre un paciente y una enfermera. Estas métricas abordan problemas como la toxicidad, la falta de privacidad, el sesgo y la falta de razonamiento.

Seguridad (Safety) y Protección (Security): Esta métrica evalúa el cumplimiento de un modelo con las directrices éticas y responsables en sus respuestas generadas . La seguridad se centra principalmente en mitigar los riesgos potenciales asociados con el contenido dañino o inapropiado (toxicidad) producido por los LLMs . Abarca aspectos como el nivel de confianza del modelo en sus respuestas, el nivel de detalle incluido y los posibles riesgos o daños que puedan ocasionar las respuestas. La fuente enfatiza que estos aspectos pueden adaptarse según el tipo de usuario; por ejemplo, se puede permitir un consejo más específico para profesionales de la salud que para pacientes . La protección se define como la salvaguardia de la información y los sistemas de información para prevenir el acceso, uso, divulgación, interrupción, modificación o destrucción no autorizados.

Privacidad (Privacy): Esta métrica se ha diseñado para evaluar si el modelo utiliza la información sensible de los usuarios para el ajuste fino del modelo o para el uso general. La privacidad se evalúa desde tres perspectivas: la información compartida por los usuarios debe permanecer confinada a la sesión de chat específica y no utilizarse en consultas de otros usuarios; el modelo debe evitar solicitar información innecesaria o sensible a la privacidad; y el conjunto de datos utilizado para entrenar el modelo no debe contener información privada que pueda extraerse mediante consultas .

Sesgo (Bias): En el contexto de los chatbots de salud, el sesgo se refiere a la presencia de un trato discriminatorio en sus respuestas . La fuente identifica tres aspectos significativos del sesgo: sesgo demográfico (disparidades basadas en raza, género, edad, etc.); sesgo de condición médica (recomendaciones inconsistentes o desiguales sin justificación clínica); y sesgo de representación (subrepresentación de ciertos grupos o condiciones médicas en los datos de entrenamiento). La evaluación del sesgo puede realizarse mediante un índice de acuerdo basado en la frecuencia con la que un chatbot de salud concuerda con afirmaciones estereotipadas

Interpretabilidad (Interpretability): Esta métrica evalúa las respuestas del chatbot en términos de aspectos centrados en el usuario, midiendo la transparencia, claridad y comprensibilidad de su proceso de toma de decisiones . Permite a los usuarios y a los profesionales de la salud comprender el razonamiento detrás de las recomendaciones o acciones del chatbot. Por lo tanto, a través de la interpretabilidad, también se puede evaluar la capacidad de razonamiento de los chatbots, asegurando que su comportamiento pueda rastrearse hasta reglas, algoritmos o fuentes de datos específicas.

Empatía (Empathy): Se define como la capacidad de comprender y compartir los sentimientos de otra persona. Se enfatiza que las métricas de empatía se establecen según el tipo de usuario y tienen más importancia cuando el usuario es un paciente. Estas métricas buscan asegurar que los chatbots consideren el apoyo emocional, la confianza, las preocupaciones, la equidad y la alfabetización en salud de los usuarios. la Empatía también juega un papel crucial en la construcción de confianza entre los usuarios y los chatbots.

Apoyo Emocional (Emotional Support): Esta métrica evalúa cómo los chatbots incorporan las emociones y sentimientos de los usuarios. Se centra en mejorar las interacciones del chatbot basadas en los estados emocionales de los usuarios, evitando la generación de respuestas dañinas. Abarca aspectos como la escucha activa, el aliento, las derivaciones, la psicoeducación y las intervenciones en crisis.

Alfabetización en Salud (Health Literacy): Esta métrica evalúa la capacidad del modelo para comunicar información relacionada con la salud de una manera comprensible para personas con diferentes niveles de conocimiento sobre la salud. Ayuda a los pacientes con bajo conocimiento de salud a comprender la terminología médica, seguir las instrucciones posteriores a la visita, utilizar las recetas de manera adecuada, navegar por los sistemas de salud y entender el contenido relacionado con la salud.

Equidad (Fairness): Esta métrica evalúa la imparcialidad. Analiza si el chatbot ofrece una calidad y equidad consistentes en sus respuestas a usuarios de diferentes grupos demográficos, considerando factores como la raza, el género, la edad o el nivel socioeconómico. Es importante distinguir entre equidad y sesgo, la equidad asegura un trato o respuestas iguales para todos los usuarios, mientras que el sesgo examina la presencia de preferencias injustificadas o discriminación. Mejorar la equidad contribuye a una mayor confiabilidad .

Personalización (Personalization): Esta métrica mide el grado de adaptación e individualización en las conversaciones.. Evalúa la eficacia con la que el chatbot incorpora las preferencias de los usuarios finales, la demografía, las interacciones pasadas, los patrones de comportamiento y los parámetros de salud (obtenidos de fuentes como los registros electrónicos de salud) al generar respuestas . La personalización puede evaluarse desde dos perspectivas: la conversación personalizada (procedimiento de comunicación) y las sugerencias de salud personalizadas (resultado). Se indica que la personalización puede mejorar la confiabilidad al adaptar las interacciones y recomendaciones a cada usuario.

Rendimiento (Performance): Estas métricas evalúan el rendimiento en tiempo de ejecución de los modelos conversacionales de salud, ya que impactan significativamente la experiencia del usuario durante las interacciones. Desde la perspectiva del usuario, la usabilidad y la latencia son atributos de calidad primordiales. Estas métricas pueden mantenerse invariantes con respecto a las tres variables de confusión (tipo de usuario, dominio y tarea) y abordan problemas como la latencia y la falta de usabilidad.

Se proponen cuatro métricas específicas dentro de la categoría de Rendimiento:

Eficiencia de Memoria (Memory Efficiency): Esta métrica cuantifica la cantidad de memoria utilizada por un chatbot de salud. Se señala que los LLMs populares a menudo requieren una gran capacidad de memoria, lo que dificulta su ejecución en dispositivos con memoria limitada.

Operaciones de Punto Flotante (FLOP): Esta métrica cuantifica el número de operaciones de punto flotante requeridas para ejecutar una sola instancia de los modelos conversacionales de salud. Proporciona información valiosa sobre la eficiencia computacional y la latencia de los chatbots de salud, ayudando en su optimización para tiempos de respuesta más rápidos y eficientes.

Límite de Tokens (Token Limit): Esta métrica evalúa el rendimiento de los chatbots, centrándose en el número de tokens utilizados en interacciones de múltiples turnos . El número de tokens impacta significativamente el recuento de palabras en una consulta y los recursos computacionales requeridos durante la inferencia. A medida que aumenta el número de tokens, también aumentan la memoria y la computación necesarias, lo que lleva a una mayor latencia y una menor usabilidad.

Número de Parámetros (Number of Parameters): Esta métrica del modelo LLM significa el tamaño y la complejidad del modelo. Un mayor número de parámetros indica una mayor capacidad para procesar y aprender de los datos de entrenamiento y generar respuestas. Reducir el número de parámetros a menudo conduce a una disminución en el uso de memoria y los FLOPs, lo que probablemente mejora la usabilidad y la latencia, haciendo que el modelo sea más eficiente y efectivo en aplicaciones prácticas.

Asociación entre Métricas

Las diferentes métricas propuestas para evaluar chatbots de salud no son completamente independientes y pueden influirse mutuamente. Esta interconexión presenta desafíos importantes a considerar durante el proceso de evaluación.

Asociaciones dentro de la misma categoría (Within-category relations): Se refieren a las correlaciones entre métricas que pertenecen al mismo grupo (Precisión, Confiabilidad, Empatía o Rendimiento). Estas correlaciones pueden ser positivas o negativas. La fuente ofrece un ejemplo dentro de la categoría de Precisión, donde la actualización (up-to-dateness) y la solidez (groundedness) muestran una correlación positiva. Asegurar que el chatbot utilice información reciente y válida mejora la exactitud factual de las respuestas, lo que a su vez aumenta su solidez.

Asociaciones entre diferentes categorías (Between-category relations): Ocurren cuando métricas de categorías distintas exhiben correlaciones. La fuente ilustra esto con la posible relación entre Confiabilidad y Empatía. Por ejemplo, la empatía a menudo requiere personalización, lo que podría potencialmente comprometer la privacidad (dentro de la Confiabilidad) y llevar a respuestas sesgadas (también dentro de la Confiabilidad).

Además de estas asociaciones, se destaca una relación significativa entre las métricas de Rendimiento y las otras tres categorías (Precisión, Confiabilidad y Empatía). Por ejemplo, el número de parámetros en un modelo de lenguaje (una métrica de Rendimiento) puede impactar las métricas de Precisión, Confiabilidad y Empatía. Un mayor número de parámetros puede introducir complejidad, lo que podría afectar positiva o negativamente estas otras métricas. Por el contrario, un bajo número de parámetros puede limitar la capacidad del modelo para adquirir conocimiento, influyendo en los valores de estas métricas.

Es crucial tener en cuenta estas asociaciones al interpretar los resultados de la evaluación y al comparar el rendimiento de diferentes modelos de chatbots de salud.

Finalmente, se reafirma la importancia crítica de una evaluación rigurosa y centrada en el usuario para la IA conversacional generativa en el ámbito de la salud reconociendo que existen  desafíos  en su implementación y validación, con el fin último de asegurar que estas tecnologías mejoren de manera segura y efectiva la atención al paciente.

Primun non nocere

Tabla resumen de métricas para chatbots

CategoríaMétricaDefiniciónProblemaBenchmark
Precisión (Accuracy)IntrinsicProblemas lingüísticos y respuestas irrelevantesProblemas lingüísticos y respuestas irrelevantesOpenBookQA , MedQA-USMLE , QuAC , BoolQ , NaturalQuestions , RAFT , HellaSwag , CNN/DM , XSum , BLiMP , The Pile , ICE , TwitterAAE , WikiFact , NarrativeQA
SSIMedir la relevancia de la respuesta generadaRespuestas irrelevantesOpenAI Evals , ParaQA , SuperGLUE , MMLU , BIG-Bench , NarrativeQA , OpenBookQA , QuAC , WikiFact , BoolQ , NaturalQuestions , MedQA-USMLE
RobustnessEvaluar la resiliencia del chatbot ante interrupcionesFalta de resiliencia y validezGLUE , CoQA , LAMBADA , TriviaQA , ANLI , MNLI , SQuAD
GeneralizationEvaluar el rendimiento del chatbot en tareas desconocidasSobreajuste, transferibilidad limitada y falta de validezTyDiQA , PromptBench , AdvGLUE , TextFlint , DDXPlus , MGSM
ConcisenessMedir la concisión de las respuestas con precisiónVerbosidad y redundanciaKoLA , AlpacaEval , PandaLM , GLUE-X , EleutherAI Eval
Up-to-datenessEvaluar la actualidad de las respuestas generadasAlucinación, desactualización y falta de validezWikiFact
GroundednessEvaluar la validez fáctica de las respuestas generadasDesactualización, falta de razonamiento, falta de validez y alucinaciónLSAT , Dyck , Razonamiento Sintético , WikiFact , bAbI , Entity Matching , Data Imputation , HumanEval , APPS , MATH , GSM8K
Confiablidad (Trustworthiness)Safety and SecurityMedir el cumplimiento ético de las respuestas generadasToxicidadRealToxicityPrompts , TruthfulQA , CivilComments , BOLD , BBQ
PrivacyEvaluar el uso de información sensible del usuarioFalta de privacidadDP-SGD
BiasMedir el sesgo en las respuestas hacia poblaciones específicasFalta de personalización y toxicidadCrowS-Pairs , WinoGender , BBQ , TruthfulQA , RealToxicityPrompts , CivilComments
InterpretabilityEvaluar la interpretabilidad de las respuestas generadasFalta de razonamiento y alucinaciónHumanEval , APPS , GSM8K , HellaSwag , LogiQA , WikiFact , Razonamiento Sintético , bAbI , Dyck , Entity Matching , Data Imputation , MATH
EmpatíaEmotional SupportMedir la integración de emociones del usuario por el chatbotFalta de personalización y toxicidadTruthfulQA , CivilComments , IMDb , BBQ , BOLD , RealToxicityPrompts
Health LiteracyEvaluar la comprensión de respuestas según niveles de conocimiento en saludFalta de empatía y personalizaciónParaQA , SuperGLUE
FairnessEvaluar consistencia, calidad y equidad del chatbot en usuarios demográficosFalta de personalización, empatía, fiabilidad y toxicidadOpenAI Evals , ETHICS , ParaQA , IMDb , MoralExceptQA , MACHIAVELLI , BOLD , SocialChem-101 , TruthfulQA , BBQ , CivilComments , RealToxicityPrompts
PersonalizationMedir el nivel de individualización en conversacionesToxicidad, falta de personalización, empatía y fiabilidadRealToxicityPrompts , BOLD , BBQ , IMDb , TruthfulQA , CivilComments
RendimientoMemory EfficiencyMedir el uso de memoria del chatbotLatencia y falta de usabilidadANLI , ParaQA
FLOPEvaluar el conteo de operaciones de punto flotanteLatencia y falta de usabilidadANLI , ParaQA
Token LimitEvaluar el rendimiento (computacional y de memoria)Latencia y falta de usabilidad
Number of ParameterEvaluar capacidad de procesamiento de datos y aprendizajeLatencia y falta de usabilidad

Se realizó una construcción del artículo con modelos de Gemini 2.5, deepseek y chatGPT basada en el artículo revisado por pares curada

Abbasian, M., Khatibi, E., Azimi, I. et al. Foundation metrics for evaluating effectiveness of healthcare conversations powered by generative AI. npj Digit. Med. 7, 82 (2024). https://doi-org.udea.lookproxy.com/10.1038/s41746-024-01074-z

Deja un comentario