De la mente al procesador <<El razonamiento por pasos, un salto cualitativo en la eficacia de los LLMs>>

Ricardo A. Peña MD, PhD. Profesor Asociado, Facultad de Medicina, Universidad de los Andes. Miembro fundador de Aipocrates. Twitter: @DrRicardoPena

La Evolución del Razonamiento en la IA

Hace algunos días, me encontraba ayudando a mi hija con un crucigrama. En algún momento, una pista solicitaba una palabra en la que conocíamos la posición de dos letras, pero no podíamos encontrar una respuesta que correspondiera a la pista. Como harían muchas personas en la actualidad, después de varios minutos y de consultar un diccionario escolar, dije: “Voy a preguntarle a ChatGPT”. ¿Acaso ChatGPT no es un experto en el uso de palabras y texto?

Resulta que lo que parece sencillo para nosotros (asumiendo que conocemos un listado completo de palabras), no es una tarea tan simple para un modelo de lenguaje de gran escala (LLM, por sus siglas en inglés). Los LLMs procesan palabras y relaciones entre palabras. Esencialmente, predicen cuál es la siguiente palabra más probable en un texto, dado el historial de uso de una palabra y el contexto en que se está utilizando. Esta habilidad es diferente a la que se requiere para contestar el reto del crucigrama, que implica varios pasos secuenciales como: contar el número de letras en una palabra, reconocer posiciones de letras y revisar qué palabras se ajustan mejor a la pista.

Solucionar este tipo de tarea requiere un proceso de «razonamiento», en el que un actor evalúa diversos procesos (que pueden incluir diferentes pasos y generar múltiples respuestas) para escoger aquellos que, utilizados de forma correcta y en el orden adecuado, solucionan el reto. Este razonamiento puede tener diferentes niveles de complejidad, según los retos a los que nos enfrentamos. En el caso de la medicina, podemos pensar en un paciente que llega a urgencias con múltiples síntomas, lo que obliga al personal de salud a analizar varias variables simultáneamente (la condición del paciente, los recursos disponibles, las expectativas del paciente y del sistema de salud, etc.) para elegir la mejor opción posible.

Un LLM, por lo tanto, tiene aplicaciones limitadas para resolver problemas complejos. Sin embargo, recientes investigaciones han desarrollado modelos matemáticos y enfoques de programación complementarios que mejoran la capacidad de razonamiento de los LLMs. El ejemplo más claro de este avance es el nuevo modelo o1 de OpenAI. (openAI.com, 2024)

¿Cómo se define el razonamiento en los LLMs?

Un sistema de AI que brinda apoyo en decisiones del campo de la medicina. Imagen generada con DallE.

El razonamiento en los LLMs se refiere a la capacidad de estos modelos para tomar decisiones mediante pasos lógicos, en lugar de simplemente generar respuestas basadas en correlaciones de datos previas. Mientras que los modelos anteriores de IA solían basarse en patrones dentro de grandes cantidades de datos, los modelos de razonamiento van más allá: son capaces de evaluar una serie de pasos antes de llegar a una conclusión.

Una de las herramientas clave para lograr esto es el enfoque de Cadena de Pensamiento (Chain of Thought, CoT). La CoT descompone un problema en pequeños pasos interconectados, lo que facilita un análisis más detallado y coherente. Por ejemplo, en una tarea médica, un LLM con CoT podría analizar cada síntoma de un paciente, uno por uno, para llegar a un diagnóstico en lugar de saltar directamente a una conclusión final basada en datos superficiales (Alcaraz, 2024; OpenAI o1 System Card, 2024).

Un segundo concepto esencial en los LLMs es la autoconsistencia (self-consistency) (Alcaraz, 2024). Esta técnica asegura que el modelo genere múltiples caminos de razonamiento y luego seleccione el más coherente y fiable entre ellos. Es decir, cuando un modelo se enfrenta a una pregunta compleja, crea diferentes respuestas internas y luego elige aquella que sea más coherente, según las revisiones cruzadas entre los diferentes caminos. Esto no solo minimiza los errores, sino que también asegura que las respuestas sean lo más precisas posible. Este enfoque está alineado con lo discutido en el artículo «Let’s Verify Step by Step» de openAI, que resalta la importancia de supervisar el proceso de razonamiento en cada paso para mejorar la precisión (Lightman, y otros, 2023). Al igual que en el modelo o1, este proceso asegura que el modelo no solo se centre en la respuesta final, sino que verifique y valide cada etapa intermedia del razonamiento, lo que conduce a un resultado más confiable.

OpenAI o1: Un Salto en la Capacidad de Razonamiento

El modelo OpenAI o1 representa un hito importante en la evolución del razonamiento dentro de los LLMs. A diferencia de modelos anteriores, o1 es capaz de manejar tareas intrincadas y multietapa, como la generación de código complejo y la solución de problemas siguiendo pasos lógicos, sin la necesidad de instrucciones específicas para llevar a cabo estos procesos. La autoconsistencia y la CoT están integradas directamente en la arquitectura del modelo o1. Esto significa que cada vez que o1 se enfrenta a una tarea compleja, aplica automáticamente la Cadena de Pensamiento y la autoconsistencia, sin necesidad de indicaciones específicas. Este enfoque genera respuestas más precisas, a cambio de un mayor tiempo de respuesta y un mayor uso de recursos de cómputo.

En contraste, GPT-4o solo utiliza la Cadena de Pensamiento cuando se le solicita explícitamente, lo que lo hace menos eficiente para manejar problemas que requieren razonamiento complejo sin indicaciones específicas.

¿Cómo mejorar el razonamiento en otros LLMs (GPT-4o, Llama, Gemini, etc.)?

En otros modelos de lenguaje, como GPT-4o, el razonamiento no es automático. Es necesario solicitarlo mediante técnicas de instrucciones (prompts). Como usuarios, podemos solicitar al sistema que razone una respuesta paso a paso, o que revise cuidadosamente cada etapa del proceso, lo cual puede mejorar la calidad de la respuesta. Técnicas como: «Describe paso a paso el proceso que seguirás» o «Menciona qué pasos son importantes para resolver este problema» son ejemplos sencillos y efectivos de cómo mejorar el razonamiento en estos modelos. Este tipo de indicaciones fomentan el uso de la Cadena de Pensamiento  y aumentan la probabilidad de que el modelo analice el problema en profundidad, aunque el nivel de desempeño en esta tarea no siempre es predecible.

Solicitar la explicación de los pasos involucrados en una tarea y pedir explícitamente que el modelo «revise» o «verifique» cada etapa del proceso facilita que las respuestas no sean superficiales y que se tomen en cuenta más variables implicadas en el problema. En el pasado, incluso, algunas personas han reportado que ofrecer recompensas virtuales (sin necesidad de dar nada realmente) puede aumentar el rendimiento del modelo en algunas tareas.

Actualmente, también se están evaluando sistemas de agentes para mejorar el rendimiento (Qineng Wang, Su, Tong, & Song). En esta estrategia, se crean mini-modelos dentro del LLM principal, cada uno de los cuales ejecuta una tarea particular (por ejemplo, buscar información, comprobar ortografía, resumir un documento, o describir las características de un problema). Estos agentes pueden trabajar de forma secuencial o en paralelo para contribuir a la solución de un reto. Es muy probable que en el corto plazo, esta sea una de las principales estrategias para mejorar el rendimiento de los LLMs en tareas específicas.

Nuevas estrategias de razonamiento que podrían ser incluidas en futuros LLMs

Investigadores en instituciones académicas e industriales están explorando nuevas técnicas para mejorar el razonamiento de los LLMs. Estas estrategias combinan diferentes modelos matemáticos para aumentar la probabilidad de que un algoritmo encuentre la mejor solución posible, ajustando pérdidas y ganancias (no en términos económicos, sino como funciones matemáticas dentro del modelo). Algunos enfoques prometedores incluyen el marco Q* y el razonamiento geométrico, cada uno con sus características particulares que pueden ampliar la capacidad de los modelos para resolver problemas más complejos y específicos.

La estrategia Q* introduce una forma avanzada de abordar el razonamiento multietapa utilizando un enfoque basado en búsqueda heurística (Wang, y otros, 2024). Este método optimiza el proceso de toma de decisiones al asignar valores de utilidad (conocidos como Q-values) a cada paso de razonamiento. De esta manera, el modelo puede evaluar los resultados probables de cada paso y elegir aquel que maximiza el valor global del proceso. Es similar a un algoritmo de búsqueda en grafos, donde cada nodo representa una posible decisión, y el objetivo es encontrar la secuencia de decisiones más óptima para resolver el problema. Este enfoque es valioso en escenarios donde se requiere tomar decisiones que involucren muchas variables o donde las consecuencias de cada elección no sean lineales, como en el tratamiento de enfermedades complejas o en la resolución de problemas de optimización.

Otra innovación que podría mejorar la capacidad de los LLMs es el razonamiento geométrico, el cual aborda la complejidad de las capas de análisis de información dentro del LLM (Cosentino & Shekkizhar, 2024; Alcaraz, 2024). En lugar de solo analizar las palabras, este enfoque hace que la IA represente las ideas como puntos en un espacio y las conecte con líneas, formando un «mapa» de relaciones. El razonamiento buscará comprender la densidad del mapa y las conexiones entre las ideas en un espacio geométrico. Esta estrategia podría ser muy útil, pero para implementarla es necesario un conocimiento más profundo del funcionamiento interno de los LLMs.

Aplicaciones prácticas de modelos como OpenAI o1 en Medicina

Una profesional de la salud supervisando un sistema de IA que recomienda pasos a seguir con un paciente, de acuerdo con los datos de su historia clínica, paraclínicos y exposoma. Imagen generada con DallE.

El uso de razonamiento multietapa y autoconsistencia dentro de OpenAI o1 optimiza la capacidad de los LLMs para navegar y resolver problemas complejos. Esto podría ayudarnos a gestionar relaciones complejas entre variables, mejorando el desempeño en áreas clínicas, de investigación biomédica y en la educación en salud. A continuación, algunos ejemplos:

El modelo podría analizar múltiples parámetros de un paciente, como síntomas, antecedentes médicos, hallazgos del examen físico, datos de dispositivos portátiles de monitoreo (wearables) y resultados de laboratorio, para sugerir tratamientos o diagnosticar enfermedades. La capacidad de razonar paso a paso y aplicar la autoconsistencia permite a los profesionales de la salud tener mayor confianza en que el modelo está considerando todas las variables posibles antes de llegar a una conclusión.

En la investigación biomédica, áreas como la biología de sistemas y la farmacología se beneficiarían enormemente de las capacidades de razonamiento de LLMs avanzados como o1. Un ejemplo puede ser el aumento en la eficiencia de la anotación y visualización de resultados obtenidos mediante ciencias ómicas. Además, el modelo podría realizar automáticamente, con alta precisión, la evaluación de la literatura disponible en un área específica.

Modelos con alta capacidad de razonamiento también podrían aumentar la eficiencia de los procesos de aprendizaje en medicina y apoyar la personalización de la educación. El modelo podría evaluar las características de un currículo y adaptar las rutas de aprendizaje de los estudiantes, considerando datos epidemiológicos locales o regionales. Un modelo con estas capacidades también podría generar simulaciones de casos clínicos interactivos, siguiendo reglas definidas, además de ayudar a los profesionales de la salud a mejorar su análisis de situaciones clínicas, al sugerir variables que podrían no haber considerado rutinariamente. Esto no solo refuerza la capacidad de razonamiento de los estudiantes y profesionales, sino que también ayuda a identificar puntos ciegos o sesgos en su toma de decisiones.

Conclusiones

Los avances en el razonamiento dentro de modelos como OpenAI o1 representan una transformación significativa en la forma en que podemos utilizar herramientas de inteligencia artificial en medicina y educación. La capacidad de o1 para descomponer problemas complejos y  razonar paso a paso puede ayudarnos a tomar decisiones más seguras y eficaces. Además, su uso tiene el potencial de mejorar enormemente la eficiencia de varias tareas en estos campos.

Un ejemplo sencillo de este potencial lo experimenté el día en que el modelo o1 fue anunciado. Ese día, mientras trabajaba en la creación de un juego educativo en farmacología con el apoyo de las habilidades de programación de ChatGPT 4o y Gemini 1.5, logré, después de varias horas de trabajo, un prototipo funcional. Sin embargo, cuando probé o1, con solo dos instrucciones y en menos de cinco minutos, logré un prototipo que superaba con creces el que había creado con los otros modelos más avanzados hasta ese momento.

Es importante destacar que o1 no reemplaza a los otros modelos actuales. De hecho, o1 no cuenta con la capacidad de consultar Internet o procesar imágenes, lo que limita su alcance en ciertos aspectos. Sin embargo, su uso combinado con otros modelos tradicionales puede mejorar de manera significativa la eficiencia en ciertas tareas.

Los invito a pensar en problemas complejos que puedan ser comunicados a o1, explorar su potencial y descubrir sus limitaciones. Este nuevo modelo ofrece una herramienta poderosa para quienes trabajamos en el campo de la salud y la educación, especialmente en la resolución de problemas complejos y la generación de soluciones innovadoras.

Referencias

Bibliografía

openAI.com. (20 de 09 de 2024). Obtenido de Introducing OpenAI o1-preview : https://openai.com/index/introducing-openai-o1-preview/

Cosentino, R., & Shekkizhar, S. (02 de 07 de 2024). Reasoning in Large Language Models: A Geometric Perspective. Obtenido de arxiv.org: https://arxiv.org/abs/2407.02678

Alcaraz, A. (12 de 09 de 2024). Why OpenAI o1’s Training Method Will Open a Golden Age for Open Source Small Language Models. Obtenido de medium.com: https://medium.com/codex/why-openai-o1s-training-method-will-open-a-golden-age-for-small-language-models-7d64cb58f2ba

Lightman, H., Kosaraju, V., Burda, Y., Edwards, H., Baker, B., Lee, T., . . . Cobbe, K. (31 de 05 de 2023). Let’s Verify Step by Step. Obtenido de arxiv.org: https://arxiv.org/abs/2305.20050

Wang, C., Deng, Y., Lyu, Z., Zeng, L., He, J., Yan, S., & An, B. (22 de 07 de 2024). Q*: Improving Multi-step Reasoning for LLMs with Deliberative Planning. Obtenido de arxiv.org: https://arxiv.org/abs/2406.14283

Qineng Wang, Z. W., Su, Y., Tong, H., & Song, Y. (s.f.). Rethinking the Bounds of LLM Reasoning: Are Multi-Agent Discussions the Key? Obtenido de arxiv.org: https://arxiv.org/abs/2402.18272

OpenAI o1 System Card. (12 de 09 de 2024). Obtenido de OpenAI.com: https://openai.com/index/openai-o1-system-card/

Deja un comentario