Screenshot 2024 07 02 At 11.53.43 Pm.png

La optimización de dos niveles (BO) es un campo de investigación en crecimiento que está ganando atención por su éxito en diversas tareas de aprendizaje automático, como la optimización de hiperparámetros, el metaaprendizaje y el aprendizaje de refuerzo. La BO implica una estructura de dos niveles en la que la solución al problema externo depende de la solución al problema interno. Sin embargo, la BO no se usa ampliamente para problemas de gran escala, a pesar de ser flexible y aplicable a muchos problemas. El principal desafío es la interdependencia entre los niveles superior e inferior de los problemas que obstaculizan la escalabilidad de la BO. Esta dependencia mutua presenta desafíos computacionales significativos, especialmente cuando se manejan problemas de gran escala.

En este artículo se analizan dos áreas principales de trabajo relacionado. La primera es la optimización de dos niveles, que se puede dividir en dos tipos: (a) métodos de diferenciación implícita aproximada (AID) y (b) métodos de diferenciación iterativa (ITD). Ambos enfoques siguen un método de dos bucles y requieren muchos costos computacionales para problemas a gran escala. La segunda área es la reponderación de datos, donde la proporción de fuentes de datos de entrenamiento afecta en gran medida el rendimiento de los modelos de lenguaje grandes (LLM). En este artículo se analizan varios métodos para reponderar las fuentes de datos para lograr una combinación óptima de datos de entrenamiento. Sin embargo, ninguno de estos métodos garantiza ponderaciones de datos óptimas y no se han realizado experimentos escalables en modelos con más de 30 mil millones de parámetros.

Investigadores de la Universidad de Ciencia y Tecnología de Hong Kong y de la Universidad de Illinois en Urbana-Champaign han presentado ScaleBiO, un nuevo método de optimización de dos niveles capaz de escalar hasta 34 mil millones de LLM en tareas de reponderación de datos. ScaleBiO puede ejecutar estos grandes modelos en ocho GPU A40 incorporando una técnica de entrenamiento que hace un uso eficiente de la memoria denominada LISA. Esta es la primera vez que se ha aplicado con éxito la optimización de dos niveles a modelos de nivel tan grandes, lo que demuestra su potencial en aplicaciones del mundo real. ScaleBiO optimiza los pesos de los datos aprendidos de forma eficaz y proporciona una garantía de convergencia similar a los métodos tradicionales de optimización de dos niveles para objetivos suaves y fuertemente convexos.

Los experimentos de reponderación de datos muestran que ScaleBiO funciona bien para modelos de diferentes tamaños, como GPT-2, LLaMA-3-8B, GPT-NeoX-20B y Yi-34B, donde BO filtra eficazmente los datos irrelevantes y selecciona solo las muestras informativas. Los dos experimentos realizados son (a) experimentos a pequeña escala para comprender mejor ScaleBiO y (b) experimentos de aplicación en el mundo real para validar su eficacia y escalabilidad. Para probar la eficacia de ScaleBiO en modelos de lenguaje a pequeña escala, se llevaron a cabo experimentos con GPT-2 (124M) en tres tareas de datos sintéticos: eliminación de ruido de datos, entrenamiento multilingüe y ajuste fino del seguimiento de instrucciones.

Para evaluar ScaleBiO, se toman muestras de 3000 datos de cada fuente para volver a ponderarlos y, luego, se toman muestras de 10 000 datos según los pesos finales de BO para entrenar el modelo. Para demostrar la eficacia de ScaleBiO, se aplican los pesos de muestreo aprendidos para ajustar los modelos LLaMA-3-8B y LLaMA-3-70B. Las habilidades de seguimiento de instrucciones de los LLM se evalúan utilizando MT-Bench con calificación de respuesta única, desafía a los asistentes de chat con preguntas complejas, abiertas y de múltiples turnos, y utiliza «LLM como juez» para la evaluación. Este punto de referencia se destaca por su alineación con las preferencias humanas, ya que contiene 80 preguntas distribuidas en 8 categorías de manera uniforme: Escritura, Juego de roles, Extracción, Razonamiento, Matemáticas, Codificación, Conocimiento I (STEM) y Conocimiento II (humanidades/ciencias sociales).

En resumen, los investigadores han propuesto ScaleBiO, una instancia de optimización de dos niveles capaz de escalar hasta 34 mil millones de LLM en tareas de reponderación de datos. ScaleBiO permite la reponderación de datos en modelos con al menos 7 mil millones de parámetros, lo que crea una forma eficiente de filtrar y seleccionar secuencias de comandos para aumentar el rendimiento del modelo en varias tareas. Además, las ponderaciones de muestreo aprendidas en LLaMA-3-8B se pueden aplicar a modelos más grandes como LLaMA-3-70B, lo que da como resultado mejoras significativas en el rendimiento. Sin embargo, la eficacia de ScaleBiO en el preentrenamiento a gran escala aún debe probarse, lo que requiere amplios recursos computacionales. Por lo tanto, demostrar su éxito en configuraciones de ajuste fino a gran escala podría ser un primer paso importante.


Revisar la Papel y GitHub. Todo el crédito por esta investigación corresponde a los investigadores de este proyecto. Además, no olvides seguirnos en Gorjeo.

Únete a nuestro Canal de Telegram y LinkedIn Gr¡Arriba!.

Si te gusta nuestro trabajo, te encantará nuestro Boletin informativo..

No olvides unirte a nuestro Subreddit de más de 45 000 millones de usuarios


Sajjad Ansari es un estudiante de último año de la carrera de IIT Kharagpur. Como entusiasta de la tecnología, se adentra en las aplicaciones prácticas de la IA, centrándose en comprender el impacto de las tecnologías de IA y sus implicaciones en el mundo real. Su objetivo es articular conceptos complejos de IA de una manera clara y accesible.