Investigadores de la Universidad McGill presentan el modelo Pythia 70M para destilar transformadores en modelos de convolución larga

La aparición de modelos de lenguaje grandes (LLM) ha transformado el panorama del procesamiento del lenguaje natural (PLN). La introducción de la arquitectura transformadora marcó un momento crucial y marcó el comienzo de una nueva era en la PNL. Si bien falta una definición universal para los LLM, generalmente se entienden como modelos versátiles de aprendizaje automático expertos en manejar simultáneamente varias tareas de procesamiento del lenguaje natural, lo que muestra la rápida evolución y el impacto de estos modelos en el campo.

Cuatro tareas esenciales en los LLM son la comprensión del lenguaje natural, la generación del lenguaje natural, las tareas intensivas en conocimiento y la capacidad de razonamiento. El panorama en evolución incluye diversas estrategias arquitectónicas, como modelos que emplean codificadores y decodificadores, modelos solo codificadores como BERT y modelos solo decodificadores como GPT-4. El enfoque de solo decodificador de GPT-4 sobresale en tareas de generación de lenguaje natural. A pesar del rendimiento mejorado de GPT-4 Turbo, sus 1,7 billones de parámetros plantean preocupaciones sobre un consumo sustancial de energía, lo que enfatiza la necesidad de soluciones de IA sostenibles.

Los investigadores de la Universidad McGill han propuesto el modelo Pythia 70M, un enfoque pionero para mejorar la eficiencia de la formación previa en LLM defendiendo Destilación de conocimientos para la transferencia entre arquitecturas. Inspirándose en el eficiente mecanismo Hyena, el método reemplaza los cabezales de atención en los modelos transformadores con Hyena, proporcionando una alternativa rentable al entrenamiento previo convencional. Este enfoque aborda eficazmente el desafío intrínseco que plantea el procesamiento de información contextual extensa en mecanismos de atención cuadráticos, ofreciendo una vía prometedora para LLM más eficientes y escalables.

Los investigadores utilizan el eficiente mecanismo Hyena, reemplazando los cabezales de atención en modelos transformadores con Hyena. Este enfoque innovador mejora la velocidad de inferencia y supera al entrenamiento previo tradicional en precisión y eficiencia. El método aborda específicamente el desafío de procesar información contextual larga inherente a los mecanismos de atención cuadrática, esforzándose por equilibrar el poder computacional y el impacto ambiental, mostrando una alternativa rentable y ambientalmente consciente a los métodos convencionales de preentrenamiento.

Los estudios presentan puntuaciones de perplejidad para diferentes modelos, incluido Pythia-70M, el modelo Hyena previamente entrenado, el modelo de estudiante Hyena destilado con pérdida de MSE y el modelo de estudiante Hyena ajustado después de la destilación. El modelo Hyena previamente entrenado muestra una perplejidad mejorada en comparación con Pythia-70M. La destilación mejora aún más el rendimiento, con la menor perplejidad lograda por el modelo estudiantil Hyena mediante ajustes. En las tareas de evaluación del lenguaje que utilizan el Arnés de evaluación del modelo de lenguaje, los modelos basados ​​en Hyena demuestran un desempeño competitivo en varias tareas de lenguaje natural en comparación con el modelo de maestro Pythia-70M basado en la atención.

Para concluir, los investigadores de la Universidad McGill han propuesto la Modelo Pythia 70M. El empleo de la transferencia conjunta de conocimientos con los operadores de Hyena como sustituto de la atención mejora la eficiencia computacional de los LLM durante la capacitación. Al evaluar las puntuaciones de perplejidad en los conjuntos de datos OpenWebText y WikiText, el Modelo Pythia 70M Hiena, en proceso de transferencia progresiva de conocimientos, supera a su homólogo previamente formado. El ajuste fino de la transferencia posterior al conocimiento reduce aún más la perplejidad, lo que indica un mejor rendimiento del modelo. Aunque el modelo de estudiante Hyena muestra una precisión ligeramente menor en las tareas de lenguaje natural en comparación con el modelo de profesor, los resultados sugieren que la transferencia conjunta de conocimientos con Hyena ofrece una alternativa prometedora para formar LLM más eficientes computacionalmente.


Revisar la Papel. Todo el crédito por esta investigación va a los investigadores de este proyecto. Además, no olvides seguirnos en Gorjeo y noticias de Google. Unirse nuestro SubReddit de 36k+ ML, 41k+ comunidad de Facebook, Canal de discordiay LinkedIn Grarriba.

Si te gusta nuestro trabajo, te encantará nuestro Boletin informativo..

No olvides unirte a nuestro Canal de telegramas


Asjad es consultor interno en Marktechpost. Está cursando B.Tech en ingeniería mecánica en el Instituto Indio de Tecnología, Kharagpur. Asjad es un entusiasta del aprendizaje automático y el aprendizaje profundo que siempre está investigando las aplicaciones del aprendizaje automático en la atención médica.