AI que se enseña a sí misma: los trenes ‘Absolute Zero’ de la Universidad Tsinghua con datos externos cero
Los LLM han mostrado avances en las capacidades de razonamiento a través del aprendizaje de refuerzo con recompensas verificables (RLVR), que se basa en la retroalimentación basada en resultados en…