NVIDIA AI Liberes PRORLV2: Razonamiento avanzado en modelos de idiomas con aprendizaje de refuerzo extendido RL

¿Qué es PRORLV2?

Prorlv2 es la última versión del aprendizaje de refuerzo prolongado de Nvidia (PRORL), diseñada específicamente para impulsar los límites del razonamiento en modelos de idiomas grandes (LLM). Escalando los pasos de aprendizaje de refuerzo (RL) de 2.000 a 3,000PRORLV2 prueba sistemáticamente cómo RL extendido puede desbloquear nuevos espacios de solución, creatividad y razonamiento de alto nivel que anteriormente eran inaccesibles, incluso con modelos más pequeños como el 1.5B Parameter Nemotron-Research-Razoning-QWen-1.5B-V2.

Innovaciones clave en PRORLV2

PRORLV2 incorpora varias innovaciones para superar las limitaciones RL comunes en la capacitación de LLM:

  • Reforzar ++- línea de base: Un algoritmo RL robusto que permite la optimización de horizonte largo en miles de pasos, manejando la inestabilidad típica en RL para LLM.
  • KL Divergencia Regularización y reinicio de la política de referencia: Activa periódicamente el modelo de referencia con el mejor punto de control actual, permitiendo un progreso estable y una exploración continua evitando que el objetivo RL domine demasiado temprano.
  • Recorte desacoplado y muestreo dinámico (DAPO): Fomenta diversos descubrimientos de soluciones al aumentar las tokens poco probables y centrar las señales de aprendizaje en las indicaciones de dificultad intermedia.
  • Penalización de longitud programada: Aplicado cíclicamente, ayudando a mantener la diversidad y prevenir el colapso de la entropía a medida que el entrenamiento se alarga.
  • Pasos de entrenamiento de escala: Prorlv2 mueve el horizonte de entrenamiento RL de 2,000 a 3.000 pasos, probando directamente cuánto más puede expandir las habilidades de razonamiento.

Cómo prorlv2 expande el razonamiento de LLM

Nemotron-Research-Razing-Qwen-1.5b-V2, entrenado con PRORLV2 para 3,000 pasos RL, establece un nuevo estándar para modelos de peso abierto 1.5B en tareas de razonamiento, incluidas matemáticas, código, ciencias y acuerdos lógicos:

  • El rendimiento supera las versiones y competidores anteriores como Deepseek-R1-1.5b.
  • Ganancias sostenidas con más pasos RL: Entrenamiento más largo conduce a mejoras continuas, especialmente en tareas donde los modelos base funcionan mal, lo que demuestra una expansión genuina en los límites de razonamiento.
  • Generalización;
  • Puntos de referencia: Las ganancias incluyen mejoras promedio@1 de 14.7% en matemáticas, 13.9% en codificación, 54.8% en rompecabezas lógicos, 25.1% en razonamiento STEM y 18.1% en tareas de seguimiento de instrucciones, con mejoras adicionales en V2 en puntos de referencia invisores y más duros.

Por que importa

El principal hallazgo de prorlv2 es que Entrenamiento continuo de RL, con una cuidadosa exploración y regularización, expande de manera confiable lo que los LLM pueden aprender y generalizar. En lugar de golpear una meseta temprana o un RL prolongado y un sobreajuste, permite que los modelos más pequeños rivalicen con los de razonamiento mucho más grandes, demandando que escalar RL en sí es tan importante como el tamaño del modelo o el tamaño del conjunto de datos.

Uso de Nemotron-Research-Razing-Qwen-1.5b-V2

El último punto de control está disponible para probar en la cara abrazada. Cargando el modelo:

from transformers import AutoTokenizer, AutoModelForCausalLM

tokenizer = AutoTokenizer.from_pretrained("nvidia/Nemotron-Research-Reasoning-Qwen-1.5B")
model = AutoModelForCausalLM.from_pretrained("nvidia/Nemotron-Research-Reasoning-Qwen-1.5B")

Conclusión

PRORLV2 redefine los límites del razonamiento en los modelos de lenguaje al mostrar que las leyes de escala RL importan tanto como el tamaño o los datos. A través de la regularización avanzada y los horarios de capacitación inteligente, permite un razonamiento profundo, creativo y generalizable incluso en arquitecturas compactas. El futuro se encuentra en Hasta dónde Rl puede empujar, no solo Que grande Los modelos pueden obtener.


Mira el Blog no oficial y Modelo en la cara abrazada aquí. No dude en ver nuestro Página de Github para tutoriales, códigos y cuadernos. Además, siéntete libre de seguirnos Gorjeo Y no olvides unirte a nuestro Subreddit de 100k+ ml y suscribirse a Nuestro boletín.


Nikhil es consultor interno en MarktechPost. Está buscando un doble grado integrado en materiales en el Instituto Indio de Tecnología, Kharagpur. Nikhil es un entusiasta de AI/ML que siempre está investigando aplicaciones en campos como biomateriales y ciencias biomédicas. Con una sólida experiencia en la ciencia material, está explorando nuevos avances y creando oportunidades para contribuir.