Afina - 7 minutos

Tue. Jun 16th, 2026

Los investigadores de Google Deepmind presentan BOND: un nuevo método RLHF que afina la política mediante la destilación en línea de la distribución de muestreo Best-of-N

July 24, 2024 Equipo de 7 minutos

El aprendizaje por refuerzo a partir de la retroalimentación humana (RLHF) es esencial para garantizar la calidad y la seguridad en los LLM. Los LLM de última generación, como Gemini…

Inteligencia artificial

Afina Llama 3 con ORPO. Un unificado más barato y más rápido… | de Maxime Labonne | abril de 2024

April 19, 2024 Equipo de 7 minutos

Una técnica de ajuste unificada más barata y rápida Imagen generada con DALL-E 3 por autor ORPO es un nueva y emocionante técnica de ajuste que combina las tradicionales etapas…