Los investigadores de Google Deepmind presentan BOND: un nuevo método RLHF que afina la política mediante la destilación en línea de la distribución de muestreo Best-of-N
El aprendizaje por refuerzo a partir de la retroalimentación humana (RLHF) es esencial para garantizar la calidad y la seguridad en los LLM. Los LLM de última generación, como Gemini…