HyPO: un algoritmo híbrido de aprendizaje por refuerzo que utiliza datos fuera de línea para la optimización de preferencias basada en contrastes y datos en línea sin etiquetar para la regularización de KL
Un aspecto fundamental de la investigación en IA consiste en ajustar los grandes modelos de lenguaje (LLM) para alinear sus resultados con las preferencias humanas. Este ajuste garantiza que los…