La inteligencia artificial ha experimentado avances notables con el desarrollo de grandes modelos de lenguaje (LLM). Gracias a técnicas como el aprendizaje reforzado a partir de la retroalimentación humana (RLHF), han mejorado significativamente la realización de diversas tareas. Sin embargo, el desafío radica en sintetizar contenido novedoso basado únicamente en la retroalimentación humana.
Uno de los principales desafíos para avanzar en los LLM es optimizar su proceso de aprendizaje a partir de la retroalimentación humana. Esta retroalimentación se obtiene a través de un proceso en el que a los modelos se les presentan indicaciones y generan respuestas, con evaluadores humanos que indican sus preferencias. El objetivo es refinar las respuestas de los modelos para alinearlas más estrechamente con las preferencias humanas. Sin embargo, este método requiere muchas interacciones, lo que plantea un cuello de botella para la mejora rápida del modelo.
Las metodologías actuales para la formación de LLM implican exploración pasiva, donde los modelos generan respuestas basadas en indicaciones predefinidas sin buscar activamente optimizar el aprendizaje a partir de la retroalimentación. Uno de esos enfoques es utilizar el muestreo de Thompson, donde se generan consultas basadas en estimaciones de incertidumbre representadas por una red neuronal epistémica (ENN). La elección del esquema de exploración es fundamental y el muestreo doble de Thompson ha demostrado ser eficaz para generar consultas de alto rendimiento. Otros incluyen Boltzmann Exploration e Infomax. Si bien estos métodos han sido fundamentales en las etapas iniciales del desarrollo de LLM, deben optimizarse para lograr eficiencia, y a menudo requieren una cantidad poco práctica de interacciones humanas para lograr mejoras notables.
Investigadores de Google Deepmind y la Universidad de Stanford han introducido un enfoque novedoso para la exploración activa, utilizando muestreo doble de Thompson y ENN para la generación de consultas. Este método permite que el modelo busque activamente la retroalimentación que sea más informativa para su aprendizaje, lo que reduce significativamente la cantidad de consultas necesarias para lograr niveles de alto rendimiento. ENN proporciona estimaciones de incertidumbre que guían el proceso de exploración, lo que permite que el modelo tome decisiones más informadas sobre qué consultas presentar para recibir retroalimentación.
En la configuración experimental, los agentes generan respuestas a 32 mensajes, formando consultas evaluadas por un simulador de preferencias. La retroalimentación se utiliza para refinar sus modelos de recompensa al final de cada época. Los agentes exploran el espacio de respuesta seleccionando los pares más informativos de un grupo de 100 candidatos, utilizando una arquitectura de perceptrón multicapa (MLP) con dos capas ocultas de 128 unidades cada una o un conjunto de 10 MLP para redes neuronales epistémicas (ENN).
Los resultados resaltan la efectividad del muestreo doble de Thompson (TS) sobre otros métodos de exploración como la exploración de Boltzmann e infomax, especialmente en la utilización de estimaciones de incertidumbre para mejorar la selección de consultas. Si bien la exploración de Boltzmann es prometedora a temperaturas más bajas, el doble TS supera consistentemente a otros al hacer un mejor uso de las estimaciones de incertidumbre del modelo de recompensa ENN. Este enfoque acelera el proceso de aprendizaje y demuestra el potencial de una exploración eficiente para reducir drásticamente el volumen de retroalimentación humana requerida, lo que marca un avance significativo en el entrenamiento de modelos de lenguaje grandes.
En conclusión, esta investigación muestra el potencial de una exploración eficiente para superar las limitaciones de los métodos de formación tradicionales. El equipo ha abierto nuevas vías para una mejora rápida y eficaz del modelo aprovechando algoritmos de exploración avanzados y estimaciones de incertidumbre. Este enfoque promete acelerar la innovación en los LLM y destaca la importancia de optimizar el proceso de aprendizaje para el avance más amplio de la inteligencia artificial.
Revisar la Papel. Todo el crédito por esta investigación va a los investigadores de este proyecto. Además, no olvides seguirnos en Gorjeo y noticias de Google. Unirse nuestro SubReddit de 36k+ ML, 41k+ comunidad de Facebook, Canal de discordiay LinkedIn Grarriba.
Si te gusta nuestro trabajo, te encantará nuestro Boletin informativo..
No olvides unirte a nuestro Canal de telegramas
Nikhil es consultor interno en Marktechpost. Está cursando una doble titulación integrada en Materiales en el Instituto Indio de Tecnología de Kharagpur. Nikhil es un entusiasta de la IA/ML que siempre está investigando aplicaciones en campos como los biomateriales y la ciencia biomédica. Con una sólida formación en ciencia de materiales, está explorando nuevos avances y creando oportunidades para contribuir.