QeRL: El aprendizaje por refuerzo (RL) cuantificado mediante NVFP4 lleva la formación de 32.000 millones de LLM a un único H100, al tiempo que mejora la exploración
¿Qué construiría si pudiera ejecutar el aprendizaje por refuerzo (RL) después del entrenamiento en un LLM de 32 B en NVFP4 de 4 bits (en un solo H100) con una…