Google AI presenta el aprendizaje por refuerzo supervisado (SRL): un marco paso a paso con trayectorias de expertos para enseñar modelos de lenguaje pequeños a razonar a través de problemas difíciles
¿Cómo puede un modelo pequeño aprender a resolver tareas en las que actualmente falla, sin imitaciones memorísticas ni depender de una implementación correcta? Un equipo de investigadores de Google Cloud…