Este documento de IA presenta ARM y ADA-GRPO: modelos de razonamiento adaptativo para resolución de problemas eficientes y escalables

Las tareas de razonamiento son un aspecto fundamental de la inteligencia artificial, que abarca áreas como comprensión de sentido común, resolución de problemas matemáticos y razonamiento simbólico. Estas tareas a menudo implican múltiples pasos de inferencia lógica, que los modelos de lenguaje grande (LLMS) intentan imitar a través de enfoques estructurados como la impulso de cadena de pensamiento (COT). Sin embargo, a medida que los LLM crecen en tamaño y complejidad, tienden a producir resultados más largos en todas las tareas, independientemente de la dificultad, lo que lleva a ineficiencias significativas. El campo se ha esforzado por equilibrar la profundidad del razonamiento con el costo computacional, al tiempo que garantiza que los modelos puedan adaptar sus estrategias de razonamiento para satisfacer las necesidades únicas de cada problema.

Un problema clave con los modelos de razonamiento actuales es la incapacidad de adaptar el proceso de razonamiento a diferentes complejidades de tareas. La mayoría de los modelos, incluidos los conocidos como Openi’s O1 y Deepseek-R1, aplican una estrategia uniforme, que depende típicamente de una cuna larga en todas las tareas. Esto causa el problema de “pensamiento demasiado”, donde los modelos generan explicaciones innecesariamente detalladas para tareas más simples. Esto no solo desechos de los recursos, sino que también degrada la precisión, ya que el razonamiento excesivo puede introducir información irrelevante. Enfoques como la generación guiada con aviso o la estimación del presupuesto de tokens han intentado mitigar este problema. Aún así, estos métodos están limitados por su dependencia de supuestos predefinidos, que no siempre son confiables para diversas tareas.

Los intentos de abordar estos problemas incluyen métodos como GRPO (optimización de políticas relativas del grupo), mecanismos de penalización de longitud y controles rápidos basados ​​en reglas. Si bien GRPO permite que los modelos aprendan diferentes estrategias de razonamiento al recompensar las respuestas correctas, lleva a un “colapso de formato”, donde los modelos dependen cada vez más de una cuna larga, desplazando formatos más eficientes, como cuna corta o respuesta directa. Las técnicas de penalización de longitud, como las aplicadas en métodos como ThinkPrune, controlan la longitud de salida durante el entrenamiento o la inferencia, pero a menudo a costa de una precisión reducida, especialmente en tareas complejas de resolución de problemas. Estas soluciones luchan por lograr una compensación constante entre la efectividad y la eficiencia del razonamiento, destacando la necesidad de un enfoque adaptativo.

Un equipo de investigadores de la Universidad de Fudan y la Universidad Estatal de Ohio introdujo el Modelo de razonamiento adaptativo (ARM), que ajusta dinámicamente los formatos de razonamiento basados ​​en la dificultad de la tarea. ARM admite cuatro estilos de razonamiento distintos: respuesta directa para tareas simples, cuna corta para razonamiento conciso, código para resolver problemas estructurados y cuna larga para un razonamiento profundo de múltiples pasos. Funciona en un modo adaptativo de forma predeterminada, seleccionando automáticamente el formato apropiado, y también proporciona modos guiados por instrucciones y guiados por consenso para un control o agregación explícita en todos los formatos. La innovación clave radica en su proceso de capacitación, que utiliza ADA-GRPO, una extensión de GRPO que introduce un mecanismo de recompensa de diversidad de formato. Esto evita el dominio de la cuna larga y asegura que ARM continúe explorando y utilizando formatos de razonamiento más simples cuando sea apropiado.

La metodología del brazo se basa en un marco de dos etapas. Primero, el modelo se somete a ajuste fino supervisado (SFT) con 10.8k preguntas, cada una anotada en cuatro formatos de razonamiento, procedentes de conjuntos de datos como Aqua-Rat y generado con herramientas como GPT-4O y Deepseek-R1. Esta etapa enseña al modelo la estructura de cada formato de razonamiento, pero no infunde adaptividad. La segunda etapa aplica ADA-GRPO, donde el modelo recibe recompensas escaladas para usar formatos menos frecuentes, como respuesta directa o cuna corta. Un factor en descomposición asegura que esta recompensa vuelva gradualmente a la precisión a medida que avanza el entrenamiento, evitando el sesgo a largo plazo hacia la exploración ineficiente. Esta estructura permite que el brazo evite el colapso del formato y coincida dinámicamente las estrategias de razonamiento con la dificultad de la tarea, logrando un equilibrio de eficiencia y rendimiento.

ARM demostró resultados impresionantes en varios puntos de referencia, incluidas las tareas de razonamiento de sentido común, matemático y simbólico. Redujo el uso del token en un promedio de 30%, con reducciones de hasta 70% para tareas más simples, en comparación con los modelos que dependen únicamente de una cuna larga. ARM logró una aceleración de entrenamiento 2X sobre los modelos basados ​​en GRPO, acelerando el desarrollo del modelo sin sacrificar la precisión. Por ejemplo, ARM-7B alcanzó una precisión del 75.9% en la desafiante tarea AIME’25 mientras usaba 32.5% menos de tokens. ARM-14B logró una precisión del 85.6% en OpenBookqa y una precisión del 86.4% en el conjunto de datos de matemáticas, con una reducción de uso de tokens de más del 30% en comparación con los modelos QWEN2.5SFT+GRPO. Estos números demuestran la capacidad del brazo para mantener un rendimiento competitivo al tiempo que ofrecen ganancias de eficiencia significativas.

En general, el modelo de razonamiento adaptativo aborda la ineficiencia persistente de los modelos de razonamiento al permitir la selección adaptativa de formatos de razonamiento basados ​​en la dificultad de la tarea. La introducción de ADA-GRPO y el marco de capacitación multi-formato asegura que los modelos ya no desperdicien recursos en el pensamiento excesivo. En cambio, ARM proporciona una solución flexible y práctica para equilibrar la precisión y el costo computacional en las tareas de razonamiento, por lo que es un enfoque prometedor para modelos de lenguaje grande escalables y eficientes.


Mira el Papel, Modelos en la cara abrazada y Página del proyecto. Todo el crédito por esta investigación va a los investigadores de este proyecto. Además, siéntete libre de seguirnos Gorjeo Y no olvides unirte a nuestro 95k+ ml de subreddit y suscribirse a Nuestro boletín.


Nikhil es consultor interno en MarktechPost. Está buscando un doble grado integrado en materiales en el Instituto Indio de Tecnología, Kharagpur. Nikhil es un entusiasta de AI/ML que siempre está investigando aplicaciones en campos como biomateriales y ciencias biomédicas. Con una sólida experiencia en la ciencia material, está explorando nuevos avances y creando oportunidades para contribuir.