RA3: Capacitación intermedia con abstracciones de acción temporal para un aprendizaje por refuerzo (RL) más rápido después de la capacitación en LLM de código

TL;DR: Una nueva investigación de Apple formaliza lo que debe hacer el “entrenamiento intermedio” antes del aprendizaje por refuerzo posterior al entrenamiento de RL e introduce RA3 (Razonamiento como abstracciones de acción), un procedimiento de estilo EM que aprende acciones latentes temporalmente consistentes a partir de rastros de expertos y luego realiza ajustes en esos rastros iniciados. Muestra que la capacitación intermedia debería (1) reducirse a un subespacio de acción compacto casi óptimo y (2) acortar el horizonte de planificación efectivo, mejorando la convergencia de RL. Empíricamente, RA3 mejora HumanEval/MBPP en ~8/4 puntos sobre base/NTP y acelera RLVR en HumanEval+, MBPP+, LiveCodeBench y Codeforces.

¿Qué presenta la investigación?

El equipo de investigación presenta el primer tratamiento formal de cómo la capacitación intermedia da forma al aprendizaje por refuerzo posterior a la capacitación RL: desglosan los resultados en (i) eficiencia de poda (qué tan bien la capacitación intermedia selecciona un subconjunto de acciones compacto casi óptimo que da forma a la política inicial previa) y (ii) convergencia de RL (qué tan rápido mejora la capacitación posterior dentro de ese conjunto restringido). El análisis sostiene que la capacitación intermedia es más efectiva cuando el espacio de decisión es compacto y el horizonte efectivo es corto, lo que favorece las abstracciones temporales sobre las acciones primitivas del siguiente token.

https://arxiv.org/pdf/2509.25810

Algoritmo: RA3 en una pasada

RA3 deriva un límite inferior variacional secuencial (un ELBO temporal) y lo optimiza con un bucle similar a EM:

Paso E (descubrimiento latente): utilice RL para inferir estructuras latentes (abstracciones) temporalmente consistentes alineadas con secuencias expertas. Paso M (actualización del modelo): realice la predicción del siguiente token en los rastros anotados de forma latente y arrancados para que esas abstracciones formen parte de la política del modelo.

Resultados: generación de código y RLVR.

En las tareas de código Python, el equipo de investigación informa que en múltiples modelos base, RA3 mejora el pass@k promedio en HumanEval y MBPP en ~8 y ~4 puntos sobre el modelo base y una línea de base de entrenamiento medio NTP. En la etapa posterior al entrenamiento, RLVR converge más rápido y logra un mayor rendimiento final en HumanEval+, MBPP+, LiveCodeBench y Codeforces cuando se inicializa desde RA3. Estos son efectos a mitad y post-entrenamiento respectivamente; el alcance de la evaluación es la generación de código.

Conclusiones clave

El equipo de investigación formaliza la capacitación intermedia a través de dos determinantes (eficiencia de poda e impacto en la convergencia de RL), argumentando que la efectividad aumenta cuando el espacio de decisión es compacto y el horizonte efectivo es corto. RA3 optimiza un límite inferior variacional secuencial al descubrir de forma iterativa estructuras latentes temporalmente consistentes con RL y luego realizar un ajuste fino en trazas de arranque (estilo EM). En la generación de código, RA3 informa ~+8 (HumanEval) y ~+4 (MBPP) ganancias promedio de pass@k sobre las líneas base de entrenamiento medio base/NTP en varias escalas de modelo. La inicialización posterior al entrenamiento con RA3 acelera la convergencia de RLVR y mejora el rendimiento asintótico en HumanEval+, MBPP+, LiveCodeBench y Codeforces.

La contribución de RA3 es concreta y limitada: formaliza el entrenamiento intermedio en torno a dos determinantes (eficiencia de poda y convergencia de RL) y los operacionaliza a través de un ELBO temporal optimizado en un bucle EM para aprender abstracciones de acción persistente antes de RLVR. Los investigadores informan ganancias promedio de pass@k de ~+8 (HumanEval) y ~+4 (MBPP) sobre base/NTP y una convergencia RLVR más rápida en HumanEval+, MBPP+, LiveCodeBench y Codeforces.

Consulte el documento técnico. No dude en consultar nuestra página de GitHub para tutoriales, códigos y cuadernos. Además, no dude en seguirnos en Twitter y no olvide unirse a nuestro SubReddit de más de 100.000 ML y suscribirse a nuestro boletín. ¡Esperar! estas en telegrama? Ahora también puedes unirte a nosotros en Telegram.

Michal Sutter es un profesional de la ciencia de datos con una Maestría en Ciencias de Datos de la Universidad de Padua. Con una base sólida en análisis estadístico, aprendizaje automático e ingeniería de datos, Michal se destaca en transformar conjuntos de datos complejos en conocimientos prácticos.

🙌 Siga MARKTECHPOST: agréguenos como fuente preferida en Google.

RA3: Capacitación intermedia con abstracciones de acción temporal para un aprendizaje por refuerzo (RL) más rápido después de la capacitación en LLM de código

ByEquipo de 7 minutos

¿Qué presenta la investigación?

Algoritmo: RA3 en una pasada

Resultados: generación de código y RLVR.

Conclusiones clave

By Equipo de 7 minutos

Related Post

xAI lanza las API independientes de voz a texto y de texto a voz de Grok, dirigidas a desarrolladores de voz empresarial

Anthropic lanza Claude Opus 4.7: una importante actualización para codificación agente, visión de alta resolución y tareas autónomas a largo plazo

Cómo aprender Python para ciencia de datos rápidamente en 2026 (sin perder tiempo)

You missed

Colecciones de taquilla del Proyecto Hail Mary India: la película de ciencia ficción de Ryan Gosling recauda 2,25 millones de rupias el cuarto sábado y supera la marca de 75 millones de rupias

‘The New York Times’ define a Sánchez como “el escapista más talentoso de Europa”

Pescar en la Costa Tropical – Noticias Costa Tropical Gazette

KIIT Bhubaneswar organiza una espectacular 61.a Miss India 2026 de Femina, Sadhvi Sail coronada como ganadora