Meta AI lanza LayerSkip: un nuevo enfoque de IA para acelerar la inferencia en modelos de lenguajes grandes (LLM)

Acelerar la inferencia en modelos de lenguajes grandes (LLM) es un desafío debido a sus altos requisitos computacionales y de memoria, lo que genera importantes costos financieros y energéticos. Las soluciones actuales, como la escasez, la cuantificación o la poda, a menudo requieren hardware especializado o dan como resultado una menor precisión del modelo, lo que dificulta una implementación eficiente.

Investigadores de FAIR en Meta, GenAI en Meta, Reality Labs y varias universidades han lanzado LayerSkip, una innovadora solución de extremo a extremo que combina una receta de capacitación única con decodificación autoespeculativa. El enfoque propuesto implica entrenar con un mecanismo de abandono de capas que aplica tasas de abandono bajas a las capas anteriores y tasas de abandono más altas a las posteriores, al tiempo que incorpora una pérdida de salida temprana que permite que las capas del transformador compartan un punto de salida común. Esto ayuda a que el modelo se vuelva más robusto ante salidas tempranas durante la inferencia sin la necesidad de capas auxiliares.

Además, LayerSkip introduce una solución de decodificación autoespeculativa, donde las predicciones se realizan en las primeras capas y la verificación y corrección se realizan con las capas restantes. El cálculo compartido y las activaciones entre las etapas de borrador y verificación garantizan una huella de memoria reducida en comparación con otros enfoques de decodificación especulativa.

LayerSkip consta de tres componentes principales:

  1. Receta de entrenamiento: Utiliza la pérdida de capa y la pérdida de salida temprana para crear diferentes submodelos dentro del modelo principal.
  2. Estrategia de inferencia: Permite salidas tempranas en capas anteriores para reducir los costos computacionales sin comprometer la precisión.
  3. Decodificación autoespeculativa: Las primeras predicciones se validan y corrigen utilizando las capas restantes del modelo.

Este enfoque aprovecha los pesos compartidos, lo que permite omitir capas y seguir obteniendo resultados de alta calidad al tiempo que garantiza ganancias de eficiencia. Es importante destacar que LayerSkip es de código abierto, lo que permite a investigadores y desarrolladores acceder y utilizar el código disponible en GitHub.

Los resultados experimentales de LayerSkip muestran mejoras de velocidad significativas en diferentes tamaños de modelos de Llama y diversas tareas, como resumen, codificación y análisis semántico. Por ejemplo, LayerSkip logró una aceleración de hasta 2,16 veces en el resumen CNN/DM, una aceleración de 1,82 veces en tareas de codificación y una aceleración de 2,0 veces en la tarea de análisis semántico TOPv2. Al utilizar la pérdida de capa y la pérdida de salida temprana durante el entrenamiento, se mejoró la precisión de las salidas tempranas en las capas anteriores y, al mismo tiempo, se mantuvo un rendimiento comparable al de los modelos de referencia en las capas finales. El enfoque de decodificación autoespeculativa también demostró eficiencia computacional y de memoria, lo que permitió una implementación más práctica de los LLM.

LayerSkip presenta una solución prometedora para mejorar la eficiencia de los LLM durante la inferencia y al mismo tiempo minimizar la sobrecarga computacional y de memoria. Al combinar la caída de capa, la pérdida de salida temprana y la decodificación autoespeculativa, los investigadores han propuesto un enfoque novedoso que no solo acelera la inferencia sino que también reduce los requisitos de memoria, lo que hace posible implementar modelos grandes en hardware básico. Con el lanzamiento de LayerSkip, la comunidad de investigación ahora tiene acceso a una herramienta práctica y eficaz para optimizar la inferencia LLM, lo que potencialmente allana el camino para una implementación de IA más accesible en aplicaciones del mundo real.


Mira el Papel, Serie de modelos sobre la cara abrazaday GitHub. Todo el crédito por esta investigación va a los investigadores de este proyecto. Además, no olvides seguirnos en Gorjeo y únete a nuestro Canal de telegramas y LinkedIn Grarriba. Si te gusta nuestro trabajo, te encantará nuestro hoja informativa.. No olvides unirte a nuestro SubReddit de más de 50.000 ml.

[Upcoming Live Webinar- Oct 29, 2024] La mejor plataforma para ofrecer modelos optimizados: motor de inferencia Predibase (promocionado)


Asif Razzaq es el director ejecutivo de Marktechpost Media Inc.. Como empresario e ingeniero visionario, Asif está comprometido a aprovechar el potencial de la inteligencia artificial para el bien social. Su esfuerzo más reciente es el lanzamiento de una plataforma de medios de inteligencia artificial, Marktechpost, que se destaca por su cobertura en profundidad del aprendizaje automático y las noticias sobre aprendizaje profundo que es técnicamente sólida y fácilmente comprensible para una amplia audiencia. La plataforma cuenta con más de 2 millones de visitas mensuales, lo que ilustra su popularidad entre el público.