Esta investigación de IA presenta BOFT: un nuevo método de IA de ajuste general para la adaptación de modelos básicos

Los recientes avances en el campo de la Inteligencia Artificial, especialmente la introducción de Grandes Modelos de Lenguaje, han allanado el camino para la IA en casi todos los ámbitos. Los modelos básicos, como ChatGPT y Stable Diffusion, tienen un notable potencial de generalización. Sin embargo, entrenar estos modelos desde cero es un desafío debido al creciente número de parámetros.

El enfoque de ajuste de modelos es sencillo ya que no implica ningún retraso de inferencia adicional. Sin embargo, la información relacional de las matrices de peso es difícil de mantener de manera óptima mediante técnicas de ajuste fino convencionales, que tienen una baja tasa de aprendizaje. Los investigadores han estado estudiando la técnica de ajuste fino ortogonal (OFT), que mantiene ángulos por pares entre las neuronas durante el ajuste fino transformando neuronas en la misma capa utilizando la misma matriz ortogonal. Aunque esta técnica tiene un buen potencial, surge la misma limitación, que es la enorme cantidad de parámetros entrenables que surgen de la alta dimensionalidad de las matrices ortogonales.

Para superar este desafío, un equipo de investigadores ha introducido Orthogonal Butterfly (BOFT), un método único y último que aborda la eficiencia de los parámetros en el ajuste ortogonal. Inspirándose en las estructuras de mariposa de la técnica de transformada rápida de Fourier de Cooley-Tukey, BOFT produce una matriz ortogonal densa ensamblándola con numerosas matrices dispersas factorizadas. Para expresar la matriz ortogonal como producto de matrices dispersas, se debe cambiar el tiempo de cálculo por espacio.

El equipo ha compartido que esta técnica se puede entender comparándola con un problema de transmisión de información en un gráfico estructurado en cuadrícula, lo que permite utilizar una variedad de técnicas de factorización de matrices dispersas que preservan la expresividad al tiempo que limitan los parámetros entrenables. BOFT se ha inspirado en el gráfico de mariposa del método Cooley-Tukey, siendo su principal innovación el proceso de factorización de mariposa.

Con el uso de esta factorización, se puede crear una matriz densa con un producto de matrices dispersas O(log d), cada una con elementos O(d) distintos de cero. BOFT puede ofrecer una parametrización ortogonal eficiente con solo parámetros O (d log d), una reducción considerable con respecto a la parametrización OFT original, al garantizar la ortogonalidad para cada matriz dispersa. BOFT ofrece un marco general de ajuste ortogonal y subsume OFT.

El equipo comparó BOFT con la estructura diagonal de bloques en OFT y demostró que para reducir los parámetros entrenables efectivos, tanto BOFT como OFT agregan escasez a las matrices ortogonales. Pero para aplicaciones posteriores, la estructura de mariposa de BOFT ha proporcionado una clase de hipótesis más pequeña dentro del grupo ortogonal, que permite una interpolación más suave entre matrices de grupo ortogonal completo y matrices de identidad. Para enfatizar que tanto las matrices de bajo rango como las dispersas son familias de matrices estructuradas que logran eficiencia de parámetros, este enfoque estructurado se ha comparado con la estructura de bajo rango en LoRA.

Los investigadores han resumido sus principales contribuciones de la siguiente manera.

  1. Se han estudiado los problemas de eficiencia de los parámetros en el ajuste ortogonal para mejorar la adaptabilidad de los modelos grandes a tareas posteriores.
  1. Se ha introducido un nuevo marco para la transmisión de información que replantea el desafío de construir una matriz ortogonal densa y eficiente en parámetros como un problema dentro de un gráfico estructurado en cuadrícula.
  1. Se ha introducido Orthogonal Butterfly (BOFT), un método de ajuste fino ortogonal eficiente en parámetros.
  1. Se han discutido la factorización matricial y las explicaciones teóricas de por qué BOFT reduce considerablemente los parámetros entrenables mientras preserva la expresividad y la estabilidad del entrenamiento.
  1. BOFT ha superado las técnicas de última generación en aplicaciones de adaptación, demostrando su superior eficiencia de parámetros y capacidades de generalización.

Revisar la Papel y Proyecto. Todo el crédito por esta investigación va a los investigadores de este proyecto. Además, no olvides unirte. nuestro SubReddit de 33k+ ML, 41k+ comunidad de Facebook, Canal de discordia, y Boletín electrónicodonde compartimos las últimas noticias sobre investigaciones de IA, interesantes proyectos de IA y más.

Si te gusta nuestro trabajo, te encantará nuestra newsletter.


Tanya Malhotra es estudiante de último año de la Universidad de Estudios de Petróleo y Energía, Dehradun, y cursa BTech en Ingeniería Informática con especialización en Inteligencia Artificial y Aprendizaje Automático.
Es una entusiasta de la Ciencia de Datos con buen pensamiento analítico y crítico, junto con un ardiente interés en adquirir nuevas habilidades, liderar grupos y gestionar el trabajo de manera organizada.