Tag: SHANGHAI

LLMS ahora puede aprender sin etiquetas: los investigadores de la Universidad de Tsinghua y el laboratorio de AI de Shanghai introducen el aprendizaje de refuerzo de tiempo de prueba (TTRL) para permitir modelos de lenguaje autoevolución utilizando datos no etiquetados

A pesar de los avances significativos en las capacidades de razonamiento a través del aprendizaje de refuerzo (RL), la mayoría de los modelos de idiomas grandes (LLM) siguen dependiendo fundamentalmente…