Investigadores de UC Berkeley proponen RingAttention: un enfoque de inteligencia artificial con memoria eficiente para reducir los requisitos de memoria de los transformadores

Un tipo de arquitectura de modelo de aprendizaje profundo se denomina Transformers en el contexto de muchos modelos de IA de última generación. Han revolucionado el campo de la inteligencia artificial, particularmente en el procesamiento del lenguaje natural y otras tareas del aprendizaje automático. Se basa en un mecanismo de autoatención en el que el modelo sopesa la importancia de diferentes partes de la secuencia de entrada al realizar predicciones. Consisten en un codificador y un decodificador para procesar las entradas.

Sin embargo, ampliar la longitud del contexto de Transformers requiere mucho trabajo. Se debe a la autoatención heredada. La autoatención tiene un costo de memoria cuadrático en la longitud de la secuencia de entrada, lo que dificulta la escala a secuencias de entrada más largas. Investigadores de UC Berkley desarrollaron un método llamado Anillo de atención abordar esto basándose en una simple observación. Observaron que cuando los cálculos de red de autoatención y feedforward se realizan en bloques, las secuencias se pueden distribuir en múltiples dispositivos y analizarse fácilmente.

Distribuyen el bucle externo de la atención informática en bloques entre los hosts, y cada dispositivo gestiona su respectivo bloque de entrada. Para el bucle interno, calculan la atención por bloques y las operaciones de avance específicas de su bloque de entrada designado para todos los dispositivos. Sus dispositivos host forman un anillo conceptual y envían una copia de sus bloques clave-valor que se utilizan para el cálculo en bloques al siguiente dispositivo en el anillo. También reciben simultáneamente bloques clave-valor del anterior.

Los cálculos en bloque tardan más que las transferencias en bloque. El equipo superpuso estos procesos, lo que no generó gastos generales adicionales en comparación con los transformadores estándar. Al hacerlo, cada dispositivo requiere solo memoria proporcional al tamaño del bloque, independientemente de la longitud de la secuencia de entrada original. Esto elimina efectivamente las limitaciones de memoria impuestas por dispositivos individuales.

Sus experimentos muestran que Ring Attention puede reducir los requisitos de memoria de los Transformers al permitirles entrenar secuencias más de 500 veces más largas que las tecnologías de última generación anteriores con eficiencia de memoria. Este método también permite entrenar secuencias que superan los 100 millones de longitud sin hacer aproximaciones a la atención. Como Ring Attention elimina las limitaciones de memoria impuestas por dispositivos individuales, también se pueden lograr tamaños de contexto casi infinitos. Sin embargo, se necesitaría una gran cantidad de dispositivos, ya que la longitud de la secuencia es proporcional a la cantidad de dispositivos.

La investigación sólo implica una evaluación de la eficacia del método sin los modelos de formación a gran escala. Como la longitud del contexto de escala depende de la cantidad de dispositivos, la eficiencia del modelo depende de la optimización; solo han trabajado en las operaciones de bajo nivel necesarias para lograr un rendimiento óptimo de la computadora. Los investigadores afirman que en el futuro les gustaría trabajar tanto en la longitud máxima de la secuencia como en el máximo rendimiento del ordenador. La posibilidad de un contexto casi infinito presenta muchas oportunidades interesantes, como grandes modelos de lenguaje de video y audio, aprendizaje a partir de retroalimentación extendida y prueba y error, comprensión y generación de código base y adaptación de modelos de inteligencia artificial para comprender datos científicos como secuencias de genes. .


Revisar la Papel. Todo el crédito por esta investigación va a los investigadores de este proyecto. Además, no olvides unirte. nuestro SubReddit de 31k+ ML, Comunidad de Facebook de más de 40.000 personas, Canal de discordia, y Boletín electrónicodonde compartimos las últimas noticias sobre investigaciones de IA, interesantes proyectos de IA y más.

Si te gusta nuestro trabajo, te encantará nuestra newsletter.

También estamos en WhatsApp. Únase a nuestro canal de IA en Whatsapp.


Arshad es pasante en MarktechPost. Actualmente cursa su carrera internacional. Maestría en Física del Instituto Indio de Tecnología Kharagpur. Comprender las cosas hasta el nivel fundamental conduce a nuevos descubrimientos que conducen al avance de la tecnología. Le apasiona comprender la naturaleza fundamentalmente con la ayuda de herramientas como modelos matemáticos, modelos de aprendizaje automático e inteligencia artificial.