NVIDIA AI Liberes PRORLV2: Razonamiento avanzado en modelos de idiomas con aprendizaje de refuerzo extendido RL

¿Qué es PRORLV2?

Prorlv2 es la última versión del aprendizaje de refuerzo prolongado de Nvidia (PRORL), diseñada específicamente para impulsar los límites del razonamiento en modelos de idiomas grandes (LLM). Escalando los pasos de aprendizaje de refuerzo (RL) de 2.000 a 3,000PRORLV2 prueba sistemáticamente cómo RL extendido puede desbloquear nuevos espacios de solución, creatividad y razonamiento de alto nivel que anteriormente eran inaccesibles, incluso con modelos más pequeños como el 1.5B Parameter Nemotron-Research-Razoning-QWen-1.5B-V2.

Innovaciones clave en PRORLV2

PRORLV2 incorpora varias innovaciones para superar las limitaciones RL comunes en la capacitación de LLM:

Reforzar ++- línea de base: Un algoritmo RL robusto que permite la optimización de horizonte largo en miles de pasos, manejando la inestabilidad típica en RL para LLM.
KL Divergencia Regularización y reinicio de la política de referencia: Activa periódicamente el modelo de referencia con el mejor punto de control actual, permitiendo un progreso estable y una exploración continua evitando que el objetivo RL domine demasiado temprano.
Recorte desacoplado y muestreo dinámico (DAPO): Fomenta diversos descubrimientos de soluciones al aumentar las tokens poco probables y centrar las señales de aprendizaje en las indicaciones de dificultad intermedia.
Penalización de longitud programada: Aplicado cíclicamente, ayudando a mantener la diversidad y prevenir el colapso de la entropía a medida que el entrenamiento se alarga.
Pasos de entrenamiento de escala: Prorlv2 mueve el horizonte de entrenamiento RL de 2,000 a 3.000 pasos, probando directamente cuánto más puede expandir las habilidades de razonamiento.

NVIDIA AI Liberes PRORLV2: Razonamiento avanzado en modelos de idiomas con aprendizaje de refuerzo extendido RL

ByEquipo de 7 minutos

¿Qué es PRORLV2?

Innovaciones clave en PRORLV2

Cómo prorlv2 expande el razonamiento de LLM

Por que importa

Uso de Nemotron-Research-Razing-Qwen-1.5b-V2

Conclusión

By Equipo de 7 minutos

Related Post

IBM lanza dos modelos Granite Speech 4.1 2B: ASR autorregresivo con traducción y edición no autorregresiva para una inferencia rápida

Qwen Team lanza FlashQLA: una biblioteca de kernel de atención lineal de alto rendimiento que logra una aceleración de hasta 3 veces en las GPU NVIDIA Hopper

Resolver el “dilema del Whac-a-mole”: una forma más inteligente de desviar los modelos de visión de IA | Noticias del MIT

You missed

El ejercicio por sí solo puede no compensar el daño causado por estar sentado todo el día, advierte un experto: ScienceAlert

Funcionarios del polo argentino prohíben la edición genética a pesar de dar la bienvenida a los clones

Un nuevo estudio descubre una conectividad genética sorprendente en los rorcuales de aleta a través de la genómica de poblaciones

Jorge Rey predice el tiempo de mayo ante AEMET « Euro Weekly News