En el procesamiento del lenguaje natural (NLP), los métodos RL, como el aprendizaje de refuerzo con retroalimentación humana (RLHF), se han utilizado para mejorar los resultados del modelo al optimizar las respuestas basadas en las señales de retroalimentación. Una variante específica, el aprendizaje de refuerzo con recompensas verificables (RLVR), extiende este enfoque utilizando señales automáticas, como corrección matemática o características sintácticas, como retroalimentación, permitiendo el ajuste a gran escala de modelos de lenguaje. RLVR es especialmente interesante porque promete mejorar las habilidades de razonamiento de los modelos sin necesidad de una extensa supervisión humana. Esta intersección de las tareas automatizadas de retroalimentación y razonamiento forma un área emocionante de investigación, donde los desarrolladores tienen como objetivo descubrir cómo los modelos pueden aprender a razonar matemáticamente, lógica o estructuralmente utilizando una supervisión limitada.
Un desafío persistente en el aprendizaje automático es construir modelos que puedan razonar efectivamente bajo una supervisión mínima o imperfecta. En tareas como la resolución de problemas matemáticos, donde la respuesta correcta podría no estar disponible de inmediato, los investigadores lidian con cómo guiar el aprendizaje de un modelo. Los modelos a menudo aprenden de los datos de la verdad en tierra, pero no es práctico etiquetar vastas conjuntos de datos con una precisión perfecta, particularmente en tareas de razonamiento que requieren comprender estructuras complejas como pruebas o pasos programáticos. En consecuencia, hay una pregunta abierta sobre si los modelos pueden aprender a razonar si están expuestos a señales ruidosas, engañosas o incluso incorrectas durante el entrenamiento. Este problema es significativo porque los modelos que dependen demasiado de la retroalimentación perfecta pueden no generalizarse bien cuando dicha supervisión no está disponible, lo que limita su utilidad en escenarios del mundo real.
Varias técnicas existentes tienen como objetivo mejorar las habilidades de razonamiento de los modelos a través del aprendizaje de refuerzo (RL), siendo RLVR un enfoque clave. Tradicionalmente, RLVR ha utilizado etiquetas de “verdad terrestre”, respuestas correctas verificadas por humanos o herramientas automatizadas, para proporcionar recompensas durante la capacitación. Algunos enfoques han relajado este requisito mediante el uso de etiquetas de votos mayoritarias o heurísticas simples basadas en formatos, como respuestas gratificantes que siguen un estilo de salida específico. Otros métodos han experimentado con recompensas aleatorias, ofreciendo señales positivas sin considerar la corrección de la respuesta. Estos métodos tienen como objetivo explorar si los modelos pueden aprender incluso con una orientación mínima, pero principalmente se concentran en modelos específicos, como Qwen, lo que genera preocupaciones sobre la generalización en diferentes arquitecturas.
Investigadores de la Universidad de Washington, el Instituto Allen para AI y UC Berkeley investigan esta pregunta probando varias señales de recompensa en Qwen2.5-Math, una familia de modelos de idiomas grandes ajustados para el razonamiento matemático. Probaron recompensas de verdad en tierra, recompensas de votación mayoritaria, recompensas de formato basadas en expresiones en caja, recompensas aleatorias y recompensas incorrectas. Sorprendentemente, observaron que incluso las señales completamente espurias, como recompensas aleatorias y recompensas por respuestas incorrectas, podrían conducir a ganancias de rendimiento sustanciales en los modelos QWEN. Por ejemplo, el entrenamiento QWEN2.5-MATH-7B en MATH-500 con recompensas de verdad en tierra arrojó una mejora del 28.8%, mientras que el uso de etiquetas incorrectas dio como resultado una ganancia del 24.6%. Las recompensas aleatorias aún produjeron un impulso del 21.4%, y las recompensas de formato condujeron a una mejora del 16.4%. Las recompensas de votación mayoritaria proporcionaron una ganancia de precisión del 26.5%. Estas mejoras no se limitaron a un solo modelo; QWEN2.5-MATH-1.5B también mostró fuertes ganancias: recompensas de formato aumentó la precisión en un 17.6%y etiquetas incorrectas en un 24.4%. Sin embargo, las mismas estrategias de recompensa no lograron ofrecer beneficios similares a otras familias modelo, como LLAMA3 y OLMO2, que mostraron cambios mínimos o negativos cuando se entrenaron con recompensas espurias. Por ejemplo, LLAMA3.1-8B vio caídas de rendimiento de hasta 8.5% bajo ciertas señales espurias, destacando la naturaleza específica del modelo de las mejoras observadas.
El enfoque del equipo de investigación implicó el uso de la capacitación de RLVR para ajustar los modelos con estas variadas señales de recompensa, reemplazando la necesidad de supervisión de verdad en tierra con comentarios heurísticos o aleatorios. Descubrieron que los modelos QWEN, incluso sin acceso a respuestas correctas, aún podrían aprender a producir salidas de razonamiento de alta calidad. Una idea clave era que los modelos QWEN tendían a exhibir un comportamiento distinto llamado “razonamiento de código”, generando soluciones matemáticas estructuradas como código, particularmente en formatos de pitón, independientemente de si la señal de recompensa era significativa. Esta tendencia de razonamiento del código se volvió más frecuente sobre el entrenamiento, aumentando de 66.7% a más del 90% en Qwen2.5-Math-7b cuando se entrenó con recompensas espurias. Las respuestas que incluyeron el razonamiento del código mostraron tasas de precisión más altas, a menudo alrededor del 64%, en comparación con solo el 29% para respuestas sin tales patrones de razonamiento. Estos patrones surgieron consistentemente, lo que sugiere que las recompensas espurias pueden desbloquear las capacidades latentes aprendidas durante el pretrete en lugar de introducir nuevas habilidades de razonamiento.
Los datos de rendimiento subrayaron la sorprendente robustez de los modelos QWEN. Las ganancias de recompensas aleatorias (21.4%en MATH-500) y etiquetas incorrectas (24.6%) casi coincidían con la ganancia de recompensa de verdad en tierra del 28.8%. Las tendencias similares aparecieron en todas las tareas, como AMC, donde el formato, las recompensas incorrectas y aleatorias produjeron alrededor de una mejora del 18%, solo ligeramente más baja que la mejora del 25% de las recompensas de verdad en tierra o votación mayoritaria. Incluso en AIME2024, las recompensas espurias como formato (+13.0%), incorrecto (+8.7%) y aleatorios (+6.3%) condujeron a ganancias significativas, aunque la ventaja de las etiquetas de la verdad en el suelo (+12.8%) se quitó evidente, particularmente para las preguntas de AIME2025 creadas después de los recortes de pretrados del modelo.
Varias conclusiones clave de la investigación incluyen:
- QWEN2.5-MATH-7B obtuvo una precisión del 28.8% en MATH-500 con recompensas de verdad en tierra, pero también 24.6% con recompensas incorrectas, 21.4% con recompensas aleatorias, 16.4% con recompensas de formato y 26.5% con recompensas de votos mayoritarios.
- Los patrones de razonamiento de código surgieron en los modelos QWEN, aumentando de 66.7% a 90%+ bajo RLVR, que aumentó la precisión del 29% al 64%.
- Los modelos no QWEN, como LLAMA3 y OLMO2, no mostraron mejoras similares, con LLAMA3.1-8b experimentando hasta 8.5% de caída de rendimiento en recompensas espurias.
- Las ganancias de las señales espurias aparecieron dentro de 50 pasos de entrenamiento en muchos casos, lo que sugiere una rápida obtención de habilidades de razonamiento.
- La investigación advierte que los estudios de RLVR deberían evitar generalizar los resultados basados solo en modelos QWEN, ya que la efectividad espuria de la recompensa no es universal.
En conclusión, estos hallazgos sugieren que, si bien los modelos QWEN pueden aprovechar las señales espurias para mejorar el rendimiento, lo mismo no es cierto para otras familias modelo. Los modelos no QWEN, como LLAMA3 y OLMO2, mostraron cambios de rendimiento planos o negativos cuando se entrenan con señales espurias. La investigación enfatiza la importancia de validar los métodos RLVR en diversos modelos en lugar de depender únicamente de los resultados centrados en Qwen, como lo han hecho muchos artículos recientes.
Mira el Papel, Lanzamiento oficial y Página de Github. Todo el crédito por esta investigación va a los investigadores de este proyecto. Además, siéntete libre de seguirnos Gorjeo Y no olvides unirte a nuestro 95k+ ml de subreddit y suscribirse a Nuestro boletín.
Asif Razzaq es el CEO de MarktechPost Media Inc .. Como empresario e ingeniero visionario, ASIF se compromete a aprovechar el potencial de la inteligencia artificial para el bien social. Su esfuerzo más reciente es el lanzamiento de una plataforma de medios de inteligencia artificial, MarktechPost, que se destaca por su cobertura profunda de noticias de aprendizaje automático y de aprendizaje profundo que es técnicamente sólido y fácilmente comprensible por una audiencia amplia. La plataforma cuenta con más de 2 millones de vistas mensuales, ilustrando su popularidad entre el público.