Más allá del juego de frecuencia: AoR evalúa cadenas de razonamiento para tomar decisiones precisas de LLM

Los modelos de lenguaje grande (LLM) han impulsado avances notables en diversas tareas de procesamiento del lenguaje natural (PLN). Estos modelos destacan en la comprensión y generación de textos similares a los humanos, y desempeñan un papel fundamental en aplicaciones como la traducción automática, el resumen y tareas de razonamiento más complejas. La progresión en este campo continúa transformando la forma en que las máquinas comprenden y procesan el lenguaje, abriendo nuevas vías para la investigación y el desarrollo.

Un desafío importante en este campo es la brecha entre las capacidades de razonamiento de los LLM y la experiencia a nivel humano. Esta disparidad es particularmente evidente en tareas de razonamiento complejas donde los modelos tradicionales necesitan ayuda para producir resultados precisos de manera consistente. El problema surge de la dependencia de los modelos de mecanismos de votación por mayoría, que a menudo fallan cuando las respuestas incorrectas dominan el conjunto de respuestas generadas.

El trabajo existente incluye indicaciones de cadena de pensamiento (CoT), que mejoran el razonamiento al generar pasos intermedios. La autoconsistencia emplea múltiples cadenas de razonamiento, seleccionando la respuesta más frecuente. Las indicaciones basadas en complejidad filtran las cadenas de razonamiento por complejidad. DiVereRSe entrena a los verificadores para calificar cadenas, mientras que Progressive-Hint Prompting utiliza respuestas anteriores como sugerencias. Estos métodos tienen como objetivo mejorar las capacidades de razonamiento de los LLM refinando la coherencia y precisión de las respuestas generadas.

Investigadores de la Universidad de Fudan, la Universidad Nacional de Singapur y el Centro de Investigación de IA Midea han introducido un marco de agregación de razonamiento jerárquico llamado AoR (Aggregation of Reasoning). Este marco innovador cambia el enfoque de la frecuencia de las respuestas a la evaluación de las cadenas de razonamiento. AoR incorpora muestreo dinámico, que ajusta la cantidad de cadenas de razonamiento en función de la complejidad de la tarea, mejorando así la precisión y confiabilidad de las capacidades de razonamiento de los LLM.

El marco AoR opera a través de un proceso de dos fases: puntuación local y evaluación global. En la fase de puntuación local, se evalúan cadenas de razonamiento que arrojan respuestas idénticas. El énfasis está en la solidez del proceso de razonamiento y la idoneidad de los pasos de razonamiento. Las cadenas que obtienen la puntuación más alta en estas evaluaciones son seleccionadas para la siguiente fase. Durante la fase de evaluación global, las cadenas elegidas se evalúan por su coherencia lógica y consistencia entre el proceso de razonamiento y las respuestas correspondientes. Esta evaluación rigurosa garantiza que la respuesta final se derive de la cadena de razonamiento más lógicamente sólida.

Los resultados experimentales demuestran que AoR supera significativamente a los métodos tradicionales de conjunto en tareas de razonamiento complejas. Por ejemplo, en una serie de tareas de razonamiento desafiantes, AoR logró una mejora de la precisión de hasta un 7,2 % en el conjunto de datos AQuA en comparación con el método de autoconsistencia. El marco también se adapta bien a varias arquitecturas LLM, incluida GPT-3.5-Turbo-0301, y muestra un techo de rendimiento superior. En particular, la capacidad de muestreo dinámico de AoR equilibra eficazmente el rendimiento con el costo computacional, reduciendo los gastos generales en un 20 % en comparación con los métodos existentes y manteniendo al mismo tiempo una alta precisión.

Por ejemplo, en tareas de razonamiento matemático, AoR superó a todos los enfoques de referencia en seis conjuntos de datos. Bajo el impulso de la Cadena de Pensamiento (CoT), AoR logró un aumento de rendimiento promedio del 2,37% en comparación con el método DiVereRSe. Específicamente, el rendimiento promedio mejoró un 3,09 % en comparación con el método de autoconsistencia, con ganancias significativas en conjuntos de datos como GSM8K y MultiArith. Además, AoR demostró mejoras sustanciales en tareas de razonamiento de sentido común, logrando un aumento de rendimiento promedio del 8,45 % con respecto al método de autoconsistencia.

El muestreo dinámico juega un papel crucial en el éxito de AoR. Al aprovechar las puntuaciones de evaluación de la fase de evaluación global, AoR ajusta dinámicamente el muestreo de cadenas de razonamiento en función de la confianza del modelo. Este enfoque no sólo mejora la precisión sino que también optimiza la eficiencia computacional. Por ejemplo, en el conjunto de datos AQuA, el proceso de muestreo dinámico redujo la cantidad de muestras necesarias, centrando los esfuerzos computacionales en consultas más complejas y garantizando resultados precisos.

En conclusión, el marco AoR aborda una limitación crítica en las capacidades de razonamiento de los LLM al introducir un método que evalúa y agrega procesos de razonamiento. Este enfoque innovador mejora la precisión y eficiencia de los LLM en tareas de razonamiento complejas, logrando avances significativos para cerrar la brecha entre el razonamiento humano y el de la máquina. El equipo de investigación de la Universidad de Fudan, la Universidad Nacional de Singapur y el Centro de Investigación de IA Midea ha proporcionado una solución prometedora que mejora el rendimiento y la confiabilidad de los LLM, estableciendo un nuevo punto de referencia en el procesamiento del lenguaje natural.

Revisar la Papel. Todo el crédito por esta investigación va a los investigadores de este proyecto. Además, no olvides seguirnos en Gorjeo. Únete a nuestro Canal de telegramas, Canal de discordiay LinkedIn Grarriba.

Si te gusta nuestro trabajo, te encantará nuestro Boletin informativo..

No olvides unirte a nuestro SubReddit de 42k+ ML

Nikhil es consultor interno en Marktechpost. Está cursando una doble titulación integrada en Materiales en el Instituto Indio de Tecnología de Kharagpur. Nikhil es un entusiasta de la IA/ML que siempre está investigando aplicaciones en campos como los biomateriales y la ciencia biomédica. Con una sólida formación en ciencia de materiales, está explorando nuevos avances y creando oportunidades para contribuir.

🐝 Únase al boletín informativo de investigación de IA de más rápido crecimiento leído por investigadores de Google + NVIDIA + Meta + Stanford + MIT + Microsoft y muchos otros…

Más allá del juego de frecuencia: AoR evalúa cadenas de razonamiento para tomar decisiones precisas de LLM

ByEquipo de 7 minutos

By Equipo de 7 minutos

Related Post

¿Qué es la deriva de la tokenización y cómo solucionarla?

Sakana AI presenta KAME: una arquitectura de voz a voz en tándem que inyecta conocimientos de LLM en tiempo real

Mistral AI lanza agentes remotos en Vibe y Mistral Medium 3.5 con una puntuación verificada por SWE-Bench del 77,6%

You missed

Coca-Cola perdió £25 millones en 38 días: el desastre de Dasani

¿El eclipse solar de 2026 oscurecerá la Costa Tropical y la Axarquía? « Noticias semanales del euro

Disparos cerca del café Canadá de Kapil Sharma; El comediante recibe amenazas de muerte

¿Por qué los portugueses hablan mucho mejor inglés que los españoles?