Los LLM pueden aprender matemáticas complejas de un solo ejemplo: investigadores de la Universidad de Washington, Microsoft y USC desbloquean el poder del aprendizaje de refuerzo de 1-shot con recompensa verificable

Los avances recientes en LLM como OpenAI-O1, Deepseek-R1 y Kimi-1.5 han mejorado significativamente su rendimiento en tareas de razonamiento matemático complejos. El aprendizaje de refuerzo con recompensa verificable (RLVR) es un contribuyente clave para estas mejoras, que utiliza recompensas basadas en reglas, generalmente una señal binaria que indica si la solución de un modelo a un problema es correcta. Más allá de mejorar la precisión final del resultado, también se ha observado que RLVR fomenta comportamientos cognitivos beneficiosos como la autorreflexión y mejora la generalización en todas las tareas. Si bien mucha investigación se ha centrado en optimizar los algoritmos de aprendizaje de refuerzo como PPO y GRPO para una mayor estabilidad y rendimiento, la influencia de los datos de capacitación, su cantidad y calidad, se entiende menos. Las preguntas sobre cuánto y qué tipo de datos son realmente efectivos para RLVR todavía están abiertas, a pesar de que algunos trabajos como LIMR introducen métricas para identificar ejemplos impactantes y reducir el tamaño del conjunto de datos mientras mantienen el rendimiento.

A diferencia de la extensa investigación sobre la selección de datos en el aprendizaje supervisado de refuerzo basado en la retroalimentación humana y el aprendizaje de la retroalimentación humana, el papel de los datos en RLVR ha visto una exploración limitada. Si bien LIMR demostró que el uso de un pequeño subconjunto de datos (1.4k de 8.5k ejemplos) podría mantener el rendimiento, no examinó el caso extremo del uso mínimo de datos. Otro estudio concurrente encontró que incluso el entrenamiento con solo cuatro ejemplos de PPO condujo a mejoras notables, pero este hallazgo no fue profundamente investigado o comparado contra el rendimiento de dataset completo. Aunque RLVR muestra una gran promesa para mejorar el razonamiento en LLMS, todavía falta un estudio más profundo y sistemático de la eficiencia y la selección de datos en este contexto.

Investigadores de la Universidad de Washington, la Universidad del Sur de California, Microsoft, la Universidad de California, Santa Cruz y el Instituto de Tecnología de Georgia muestran que RLVR puede mejorar significativamente el razonamiento matemático de los modelos de idiomas grandes utilizando un solo ejemplo de capacitación, 1-SHOT RLVR. Aplicarlo a Qwen2.5-Math-1.5b mejora su precisión de Math500 de 36.0% a 73.6%, coincidiendo con el rendimiento de conjuntos de datos mucho más grandes. Las mejoras se generalizan en modelos, tareas y algoritmos. El estudio también revela efectos como la generalización del dominio cruzado, el aumento de la autorreflexión y la generalización posterior a la saturación, y destaca los roles de pérdida de gradiente de política y exploración basada en entropía.

El estudio investiga cuánto se puede reducir el conjunto de datos de capacitación RLVR mientras se conserva el rendimiento comparable al conjunto de datos completo. Sorprendentemente, los autores encuentran que un solo ejemplo de entrenamiento, 1-shot RLVR, puede aumentar significativamente el razonamiento matemático en LLM. El estudio muestra que este efecto se generaliza entre tareas, modelos y dominios. Curiosamente, la capacitación en un ejemplo a menudo mejora el rendimiento en dominios no relacionados. Se propone una estrategia de selección de datos simple basada en la varianza de precisión de capacitación, pero los resultados muestran que incluso los ejemplos elegidos al azar pueden generar ganancias importantes.

El estudio evalúa su método utilizando Qwen2.5-Math-1.5b como modelo primario y otros modelos como Qwen2.5-Math-7B, Llama-3.2-3 B-INSTRUCTT y Deepseek-R1-Distillqwen-1.5 BB. Utilizan un subconjunto de 1.209 ejemplos del conjunto de datos DeepScaler para la selección de datos y el conjunto de datos de matemáticas para la comparación. La capacitación implica la tubería de verl, con hiperparámetros cuidadosamente elegidos y configuraciones por lotes. Sorprendentemente, el entrenamiento con solo uno o dos ejemplos, especialmente π1 y π13, lleva a una fuerte generalización, incluso más allá de las tareas matemáticas. Esta “generalización posterior a la saturación” persiste a pesar de los signos de sobreajuste. El estudio también encuentra una mayor autorreflexión del modelo y muestra que incluso los ejemplos simples pueden mejorar significativamente el rendimiento entre los dominios.

En conclusión, el estudio explora los mecanismos detrás del éxito de RLVR 1-SHOT, lo que demuestra que los modelos base ya poseen fuertes habilidades de razonamiento. Los experimentos muestran que incluso un solo ejemplo puede mejorar significativamente el rendimiento en las tareas de razonamiento, lo que sugiere la capacidad inherente de razonamiento del modelo. El estudio destaca que la pérdida de gradiente de políticas es clave para la efectividad de 1 disparo de RLVR, con pérdida de entropía mejorando aún más el rendimiento. Además, alentar la exploración a través de técnicas como la regularización de la entropía puede mejorar la generalización posterior a la saturación. Los hallazgos también enfatizan la necesidad de una selección de datos cuidadosa para optimizar el rendimiento del modelo, particularmente en escenarios limitados por datos.


Mira el Papel y Página de Github. Además, no olvides seguirnos Gorjeo y únete a nuestro Canal de telegrama y LinkedIn GRsalpicar. No olvides unirte a nuestro 90k+ ml de subreddit. Para promoción y asociaciones, Por favor, hable.

🔥 [Register Now] Conferencia virtual de Minicon sobre AI agente: registro gratuito + Certificado de asistencia + Evento corto de 4 horas (21 de mayo, 9 am- 1 pm PST) + Hands on Workshop


Sana Hassan, una pasante de consultoría en MarktechPost y estudiante de doble grado en IIT Madras, le apasiona aplicar tecnología e IA para abordar los desafíos del mundo real. Con un gran interés en resolver problemas prácticos, aporta una nueva perspectiva a la intersección de la IA y las soluciones de la vida real.