Google AI presenta el aprendizaje por refuerzo supervisado (SRL): un marco paso a paso con trayectorias de expertos para enseñar modelos de lenguaje pequeños a razonar a través de problemas difíciles

¿Cómo puede un modelo pequeño aprender a resolver tareas en las que actualmente falla, sin imitaciones memorísticas ni depender de una implementación correcta? Un equipo de investigadores de Google Cloud AI Research y UCLA han lanzado un marco de entrenamiento, ‘Aprendizaje por refuerzo supervisado’ (SRL), que hace que los modelos a escala 7B en realidad aprendan de trayectorias matemáticas y de agentes muy difíciles de las que el RL no puede aprender mediante el ajuste fino supervisado normal y el aprendizaje por refuerzo basado en resultados.

Los modelos pequeños de código abierto como Qwen2.5 7B Instruct fallan en los problemas más difíciles en s1K 1.1, incluso cuando el seguimiento del profesor es bueno. Si aplicamos un ajuste fino supervisado en las soluciones completas de estilo DeepSeek R1, el modelo imita token por token, la secuencia es larga, los datos son solo 1000 elementos y las puntuaciones finales caen por debajo del modelo base.

https://arxiv.org/pdf/2510.25992

Idea central de la SRL ‘Aprendizaje por refuerzo supervisado’

El ‘Aprendizaje por refuerzo supervisado’ (SRL) mantiene la optimización del estilo RL, pero inyecta supervisión en el canal de recompensa en lugar de en la pérdida. Cada trayectoria experta de s1K 1.1 se analiza en una secuencia de acciones. Para cada prefijo de esa secuencia, el equipo de investigación crea un nuevo ejemplo de entrenamiento, el modelo primero produce un lapso de razonamiento privado envuelto en…, luego genera la acción para ese paso, y solo esta acción se compara con la acción del maestro usando una métrica de similitud de secuencia basada en difflib. La recompensa es densa porque cada paso tiene una puntuación, incluso cuando la respuesta final sea incorrecta. El resto del texto, la parte de razonamiento, no está restringido, por lo que el modelo puede buscar en su propia cadena sin verse obligado a copiar las fichas del profesor.

Resultados de matemáticas

Todos los modelos se inicializan desde Qwen2.5 7B Instruct y todos se entrenan en el mismo conjunto s1K 1.1 formateado en DeepSeek R1, por lo que las comparaciones son claras. Los números exactos en la Tabla 1 son:

Base Qwen2.5 7B Instrucción, AMC23 codicioso 50.0, AIME24 codicioso 13.3, AIME25 codicioso 6.7. SRL, AMC23 codicioso 50.0, AIME24 codicioso 16.7, AIME25 codicioso 13.3. SRL luego RLVR, AMC23 codicioso 57.5, AIME24 codicioso 20.0, AIME25 codicioso 10.0.

https://arxiv.org/pdf/2510.25992

Esta es la mejora clave, SRL por sí solo ya elimina la degradación de SFT y eleva AIME24 y AIME25, y cuando RLVR se ejecuta después de SRL, el sistema alcanza las mejores puntuaciones de código abierto en la investigación. El equipo de investigación es explícito en que la mejor canalización es SRL y luego RLVR, no SRL de forma aislada.

Resultados de ingeniería de software

El equipo de investigación también aplica SRL a Qwen2.5 Coder 7B Instruct utilizando 5000 trayectorias de agentes verificadas generadas por claude 3 7 sonnet, cada trayectoria se descompone en instancias paso a paso y en total se producen 134 000 elementos de paso. La evaluación está en SWE Bench Verified. El modelo base obtiene un 5,8 por ciento en el modo de edición de archivos de Oracle y un 3,2 por ciento de extremo a extremo. SWE Gym 7B obtiene el 8,4 por ciento y el 4,2 por ciento. SRL obtiene el 14,8 por ciento y el 8,6 por ciento, que es aproximadamente 2 veces el modelo base y claramente más alto que la línea base SFT.

https://arxiv.org/pdf/2510.25992

Conclusiones clave

SRL reformula el razonamiento duro como generación de acciones paso a paso, el modelo primero produce un monólogo interno y luego genera una única acción, y solo esa acción es recompensada por la similitud de secuencia, por lo que el modelo recibe una señal incluso cuando la respuesta final es incorrecta. SRL se ejecuta con los mismos datos s1K 1.1 formateados en DeepSeek R1 que SFT y RLVR, pero a diferencia de SFT, no se adapta a demostraciones largas y, a diferencia de RLVR, no colapsa cuando ninguna implementación es correcta. En matemáticas, el orden exacto que proporciona los resultados más sólidos en la investigación es inicializar Qwen2.5 7B Instruct con SRL y luego aplicar RLVR, lo que lleva los puntos de referencia de razonamiento a niveles más altos que cualquiera de los métodos por separado. La misma receta de SRL se generaliza a la ingeniería de software agente, utilizando 5000 trayectorias verificadas de claude 3 7 sonnet 20250219, y eleva a SWE Bench Verified muy por encima tanto de la base Qwen2.5 Coder 7B Instruct como de la línea de base SWE Gym 7B estilo SFT. En comparación con otros métodos de RL por pasos que necesitan un modelo de recompensa adicional, este SRL mantiene un objetivo de estilo GRPO y utiliza solo acciones de trayectorias de expertos y una similitud de cadena liviana, por lo que es fácil de ejecutar en pequeños conjuntos de datos duros.

El ‘Aprendizaje por refuerzo supervisado’ (SRL) es una contribución práctica del equipo de investigación. Mantiene la configuración de aprendizaje por refuerzo estilo GRPO, pero reemplaza las frágiles recompensas de nivel de resultados con recompensas supervisadas y graduales que se calculan directamente a partir de trayectorias de expertos, por lo que el modelo siempre recibe una señal informativa, incluso en el régimen Dhard donde RLVR y SFT se estancan. Es importante que el equipo de investigación muestre SRL en matemáticas y en SWE Bench Verified con la misma receta, y que la configuración más fuerte sea SRL seguida de RLVR, no cualquiera de las dos por separado. Esto hace que SRL sea un camino realista para que los modelos abiertos aprendan tareas difíciles. En general, SRL es un puente limpio entre la supervisión de procesos y RL que los equipos de modelo abierto pueden adoptar de inmediato.

Consulte el documento. No dude en consultar nuestra página de GitHub para tutoriales, códigos y cuadernos. Además, no dude en seguirnos en Twitter y no olvide unirse a nuestro SubReddit de más de 100.000 ML y suscribirse a nuestro boletín. ¡Esperar! estas en telegrama? Ahora también puedes unirte a nosotros en Telegram.

Asif Razzaq es el director ejecutivo de Marktechpost Media Inc.. Como emprendedor e ingeniero visionario, Asif está comprometido a aprovechar el potencial de la inteligencia artificial para el bien social. Su esfuerzo más reciente es el lanzamiento de una plataforma de medios de inteligencia artificial, Marktechpost, que se destaca por su cobertura en profundidad del aprendizaje automático y las noticias sobre aprendizaje profundo que es técnicamente sólida y fácilmente comprensible para una amplia audiencia. La plataforma cuenta con más de 2 millones de visitas mensuales, lo que ilustra su popularidad entre el público.

🙌 Siga MARKTECHPOST: agréguenos como fuente preferida en Google.