Este documento de IA presenta RS Open RS basado en GRPO: un marco de aprendizaje de refuerzo de bajo costo para mejorar el razonamiento en modelos de idiomas pequeños

Un enfoque particular en los modelos de idiomas grandes ha sido mejorar su pensamiento lógico y sus habilidades de resolución de problemas. El aprendizaje de refuerzo (RL) se usa cada vez más en este espacio para modelos masivos y versiones compactas que pueden funcionar bien en entornos de computación restringidos. Un desafío importante en este campo es mejorar la capacidad de razonamiento de un modelo sin depender de infraestructura extremadamente grande o tiempo de entrenamiento excesivo. Los modelos principales requieren costosos hardware y tuberías de datos patentadas, lo que los pone fuera del alcance de laboratorios o empresas más pequeñas. Esto plantea la cuestión de si los modelos más pequeños se pueden mejorar utilizando enfoques rentables y lograr un rendimiento comparable a sus contrapartes más grandes en tareas desafiantes como el razonamiento matemático.

Se han explorado varios métodos para abordar esto. La solicitud de cadena de pensamiento ayuda a guiar los modelos a través de pasos problemáticos. Los algoritmos de búsqueda, como la búsqueda del haz y la búsqueda de árbol de Monte Carlo, también se utilizan para mejorar el flujo lógico de las respuestas. El aprendizaje de refuerzo en sí mismo ha sido probado en múltiples entornos. Sin embargo, muchos de estos enfoques todavía están obligados por los mismos problemas: dependen de conjuntos de datos masivos o conducen a un rendimiento inestable en las configuraciones a pequeña escala. Además, los resultados a menudo no coinciden con los de modelos patentados como la previa O1 de OpenAI.

La investigación introducida por un equipo del Laboratorio de Ingeniería Knovel en Singapur y la Universidad de Ciencias de VNU en Vietnam se centró en superar estos problemas. Los investigadores utilizaron un modelo de 1.5 mil millones de parámetros llamado Deepseek-R1-Distill-Qwen-1.5b. Adoptaron el algoritmo de optimización de políticas relativas del grupo (GRPO) para su configuración, entrenando el modelo utilizando cuatro GPU NVIDIA A40 con VRAM de 48 GB cada uno, todo dentro de un estricto límite de 24 horas. Su objetivo clave era mejorar el razonamiento del modelo sin una gran inversión financiera o computacional. Su capacitación consumió solo $ 42 en costos informáticos, una reducción drástica en comparación con las líneas de base que requieren miles de dólares.

El equipo reunió un conjunto de datos de 39,659 preguntas específicas de las matemáticas para lograr esto refinando dos conjuntos de datos existentes: abiertos y escala abierta. El proceso de filtrado consistió en eliminar preguntas triviales o ruidosas utilizando diferentes modelos como Qwen2.5-7b-Instructo y Deepseek-R1-Distill-Qwen-1.5b. El sistema de recompensas se basó en reglas y se centró en tres componentes: corrección de las respuestas (usando notación en caja), formato estructural (impuesto con etiquetas) y longitud de salida (recompensada con una función coseno para promover el razonamiento conciso). El algoritmo GRPO se utilizó para probar respuestas grupales y aplicar la optimización basada en puntajes, evitando la necesidad de un modelo crítico y, por lo tanto, reduciendo aún más las demandas computacionales.

El rendimiento de este enfoque se probó en cinco conjuntos de datos de referencia: AMC23, AIME24, Math-500, Olympiadbench y Minerva. En un experimento, utilizando solo el conjunto de datos Open-S1, la precisión AMC23 del modelo mejoró del 63% al 70% dentro de los primeros 100 pasos globales, pero luego disminuyó. En otro ensayo que combinó 7,000 muestras de dificultad mixta, la precisión en AMC23 aumentó al 80%y AIME24 alcanzó el 46.7%. El modelo llamado Open-RS2, entrenado en esa configuración, también mostró puntajes competitivos en Olympiadbench (52.4%) y Math-500 (85%). En el experimento final, la recompensa del coseno ayudó a regular la longitud de salida a un rango de 1000–3500 tokens, y el modelo mantuvo una precisión del 72.5% en AMC23 y 84.4% en Math-500.

Esta investigación mostró que el razonamiento efectivo en modelos de lenguaje pequeño se puede lograr incluso con recursos limitados. El problema de capacitar a modelos pequeños sin una inversión de hardware significativa se abordó con una estrategia de entrenamiento eficiente y de bajo costo. El método propuesto utilizó el aprendizaje de refuerzo y los datos seleccionados para ofrecer resultados sorprendentemente fuertes. Con mejoras continuas en el diseño de recompensas y la estabilidad de la optimización, los modelos pequeños pronto pueden rivalizar con sus homólogos más grandes en tareas de razonamiento práctico.


Verificar el Papel y Página de Github. Todo el crédito por esta investigación va a los investigadores de este proyecto. Además, siéntete libre de seguirnos Gorjeo Y no olvides unirte a nuestro 85k+ ml de subreddit.


Nikhil es consultor interno en MarktechPost. Está buscando un doble grado integrado en materiales en el Instituto Indio de Tecnología, Kharagpur. Nikhil es un entusiasta de AI/ML que siempre está investigando aplicaciones en campos como biomateriales y ciencias biomédicas. Con una sólida experiencia en la ciencia material, está explorando nuevos avances y creando oportunidades para contribuir.