Meta Investigers introdujo J1: un marco de aprendizaje de refuerzo que capacita a los modelos de idiomas para juzgar con consistencia razonada y datos mínimos
Ahora se están utilizando modelos de idiomas grandes para tareas de evaluación y juicio, que se extienden más allá de su papel tradicional de la generación de texto. Esto ha…