Los investigadores de Google DeepMind presentan InfAlign: un marco de aprendizaje automático para la alineación de modelos de lenguaje consciente de la inferencia

Los modelos de lenguaje generativo enfrentan desafíos persistentes al pasar de la capacitación a la aplicación práctica. Una dificultad importante radica en alinear estos modelos para que funcionen de manera óptima durante la inferencia. Los métodos actuales, como el aprendizaje reforzado a partir de la retroalimentación humana (RLHF), se centran en mejorar las tasas de éxito en comparación con un modelo de referencia. Sin embargo, a menudo pasan por alto el papel de las estrategias de decodificación en tiempo de inferencia, como el muestreo Best-of-N y la decodificación controlada. Este desajuste entre los objetivos de capacitación y el uso en el mundo real puede generar ineficiencias, lo que afecta la calidad y confiabilidad de los resultados.

Para abordar estos desafíos, investigadores de Google DeepMind y Google Research han desarrollado InfAlign, un marco de aprendizaje automático diseñado para alinear modelos de lenguaje con estrategias conscientes de la inferencia. InfAlign incorpora métodos de tiempo de inferencia en el proceso de alineación, con el objetivo de cerrar la brecha entre la capacitación y la aplicación. Lo hace mediante un enfoque de aprendizaje por refuerzo calibrado que ajusta las funciones de recompensa en función de estrategias de inferencia específicas. InfAlign es particularmente eficaz para técnicas como el muestreo Best of N, donde se generan múltiples respuestas y se selecciona la mejor, y Worst of N, que a menudo se utiliza para evaluaciones de seguridad. Este enfoque garantiza que los modelos alineados funcionen bien tanto en entornos controlados como en escenarios del mundo real.

Información técnica y beneficios

En el núcleo de InfAlign se encuentra el algoritmo Calibrar y transformar aprendizaje por refuerzo (CTRL), que sigue un proceso de tres pasos: calibrar puntuaciones de recompensa, transformar estas puntuaciones en función de estrategias de inferencia y resolver un problema de optimización regularizado por KL. Al adaptar las transformaciones de recompensas a escenarios específicos, InfAlign alinea los objetivos de capacitación con las necesidades de inferencia. Este enfoque mejora las tasas de ganancia en tiempo de inferencia al tiempo que mantiene la eficiencia computacional. Más allá de las métricas de rendimiento, InfAlign agrega solidez, permitiendo que los modelos manejen diversas estrategias de decodificación de manera efectiva y produzcan resultados consistentes y de alta calidad.

Resultados empíricos y conocimientos

La eficacia de InfAlign se demuestra utilizando los conjuntos de datos Anthropic Utility and Harmtaining. En estos experimentos, InfAlign mejoró las tasas de ganancia en tiempo de inferencia entre un 8 y un 12 % para el muestreo de lo mejor de N y entre un 4 y un 9 % para las evaluaciones de seguridad de lo peor de N en comparación con los métodos existentes. Estas mejoras se atribuyen a sus transformaciones de recompensa calibradas, que abordan las malas calibraciones del modelo de recompensa. El marco reduce los errores absolutos y garantiza un rendimiento constante en distintos escenarios de inferencia, lo que lo convierte en una solución confiable y adaptable.

Conclusión

InfAlign representa un avance significativo en la alineación de modelos de lenguaje generativo para aplicaciones del mundo real. Al incorporar estrategias conscientes de la inferencia, aborda las discrepancias clave entre la capacitación y la implementación. Su sólida base teórica y sus resultados empíricos resaltan su potencial para mejorar la alineación del sistema de IA de manera integral. A medida que los modelos generativos se utilizan cada vez más en diversas aplicaciones, marcos como InfAlign serán esenciales para garantizar tanto la eficacia como la confiabilidad.


Verificar el Papel. Todo el crédito por esta investigación va a los investigadores de este proyecto. Además, no olvides seguirnos en Gorjeo y únete a nuestro Canal de telegramas y LinkedIn Grarriba. No olvides unirte a nuestro SubReddit de más de 60.000 ml.

🚨 PRÓXIMO SEMINARIO WEB GRATUITO SOBRE IA (15 DE ENERO DE 2025): Aumente la precisión del LLM con datos sintéticos e inteligencia de evaluaciónÚnase a este seminario web para obtener información práctica para mejorar el rendimiento y la precisión del modelo LLM y, al mismo tiempo, proteger la privacidad de los datos..


Asif Razzaq es el director ejecutivo de Marktechpost Media Inc.. Como emprendedor e ingeniero visionario, Asif está comprometido a aprovechar el potencial de la inteligencia artificial para el bien social. Su esfuerzo más reciente es el lanzamiento de una plataforma de medios de inteligencia artificial, Marktechpost, que se destaca por su cobertura en profundidad del aprendizaje automático y las noticias sobre aprendizaje profundo que es técnicamente sólida y fácilmente comprensible para una amplia audiencia. La plataforma cuenta con más de 2 millones de visitas mensuales, lo que ilustra su popularidad entre el público.