Google DeepMind presenta un mecanismo de recuperación de expertos con parámetros eficientes que aprovecha la técnica de clave de producto para la recuperación dispersa de un millón de pequeños expertos

En las arquitecturas de transformadores, los costos computacionales y la memoria de activación crecen linealmente con el aumento del ancho de la capa oculta de las capas de avance (FFW). Este problema de escalamiento plantea un desafío significativo, especialmente a medida que los modelos se vuelven más grandes y complejos. Superar este desafío es esencial para avanzar en la investigación de IA, ya que afecta directamente la viabilidad de implementar modelos a gran escala en aplicaciones del mundo real, como el modelado de lenguajes y las tareas de procesamiento del lenguaje natural.

Los métodos actuales que abordan este desafío utilizan arquitecturas de mezcla de expertos (MoE), que implementan módulos expertos escasamente activados en lugar de una única capa densa de FFW. Este enfoque permite desvincular el tamaño del modelo del costo computacional. A pesar de la promesa de los MoE, como lo demostraron investigadores como Shazeer et al. (2017) y Lepikhin et al. (2020), estos modelos enfrentan desafíos computacionales y de optimización cuando se escalan más allá de un pequeño número de expertos. Las ganancias de eficiencia a menudo se estancan con el aumento del tamaño del modelo debido a un número fijo de tokens de entrenamiento. Estas limitaciones impiden que se aproveche todo el potencial de los MoE, especialmente en tareas que requieren un aprendizaje extenso y continuo.

Los investigadores de Google DeepMind proponen un nuevo enfoque denominado Parameter Efficient Expert Retrieval (PEER), que aborda específicamente las limitaciones de los modelos MoE existentes. PEER aprovecha la técnica de clave de producto para la recuperación dispersa de un vasto grupo de pequeños expertos, que suman más de un millón. Este enfoque mejora la granularidad de los modelos MoE, lo que da como resultado un mejor equilibrio entre rendimiento y cómputo. La innovación radica en el uso de una estructura de índice aprendida para el enrutamiento, lo que permite una recuperación de expertos eficiente y escalable. Este método desvincula el costo computacional del recuento de parámetros, lo que representa un avance significativo con respecto a las arquitecturas anteriores. Las capas PEER demuestran mejoras sustanciales en la eficiencia y el rendimiento para las tareas de modelado de lenguaje.

La capa PEER opera mediante la asignación de un vector de entrada a un vector de consulta, que luego se compara con un conjunto de claves de producto para recuperar los mejores k expertos. Estos expertos son perceptrones multicapa (MLP) de una sola neurona que contribuyen al resultado final a través de una combinación ponderada basada en las puntuaciones del enrutador. La técnica de recuperación de clave de producto reduce la complejidad de la recuperación de expertos, lo que hace posible manejar más de un millón de expertos de manera eficiente. El conjunto de datos utilizado para los experimentos es el conjunto de datos C4, con un análisis isoFLOP realizado para comparar PEER con FFW denso, MoE de grano grueso y capas de memoria de clave de producto (PKM). Los experimentos implicaron variar el tamaño del modelo y la cantidad de tokens de entrenamiento para identificar configuraciones óptimas de cómputo.

Los resultados muestran que las capas PEER superan significativamente a los FFW densos y a los MoE de grano grueso en términos de equilibrio entre rendimiento y cómputo. Cuando se aplicaron a varios conjuntos de datos de modelado de lenguaje, incluidos Curation Corpus, Lambada, Pile, Wikitext y C4, los modelos PEER lograron puntajes de perplejidad notablemente más bajos. Por ejemplo, con un presupuesto FLOP de 2e19, los modelos PEER alcanzaron una perplejidad de 16,34 en el conjunto de datos C4, que es menor en comparación con 17,70 para los modelos densos y 16,88 para los modelos MoE. Estos hallazgos resaltan la eficiencia y la eficacia de la arquitectura PEER para mejorar la escalabilidad y el rendimiento de los modelos de transformadores.

En conclusión, este método propuesto representa una contribución significativa a la investigación de IA al introducir la arquitectura PEER. Este novedoso enfoque aborda los desafíos computacionales asociados con el escalamiento de los modelos de transformadores aprovechando una gran cantidad de pequeños expertos y técnicas de enrutamiento eficientes. La superior relación rendimiento-computación del modelo PEER, demostrada a través de experimentos extensos, resalta su potencial para hacer avanzar la investigación de IA al permitir modelos de lenguaje más eficientes y poderosos. Los hallazgos sugieren que PEER puede escalar de manera efectiva para manejar flujos de datos extensos y continuos, lo que lo convierte en una solución prometedora para el aprendizaje permanente y otras aplicaciones de IA exigentes.

Revisar la Papel. Todo el crédito por esta investigación corresponde a los investigadores de este proyecto. Además, no olvides seguirnos en Gorjeo.

Únete a nuestro Canal de Telegram y LinkedIn Gr¡Arriba!.

Si te gusta nuestro trabajo, te encantará nuestro Boletin informativo..

No olvides unirte a nuestro Subreddit de más de 46 000 millones de usuarios

Aswin AK es pasante de consultoría en MarkTechPost. Está cursando su doble titulación en el Instituto Indio de Tecnología de Kharagpur. Le apasionan la ciencia de datos y el aprendizaje automático, y cuenta con una sólida formación académica y experiencia práctica en la resolución de desafíos reales interdisciplinarios.

🐝 Únase al boletín de investigación de IA de más rápido crecimiento leído por investigadores de Google + NVIDIA + Meta + Stanford + MIT + Microsoft y muchos otros…

Google DeepMind presenta un mecanismo de recuperación de expertos con parámetros eficientes que aprovecha la técnica de clave de producto para la recuperación dispersa de un millón de pequeños expertos

ByEquipo de 7 minutos

By Equipo de 7 minutos

Related Post

Vercel lanza Eve: un marco de agentes de IA de código abierto donde cada agente es un directorio de archivos asignados a capacidades

MiniMax Sparse Attention (MSA): una atención dispersa en bloques de dos ramas entrenada en un MoE de parámetros 109B con un presupuesto de 3T tokens

¿Podría la IA decirte dónde dejaste tus llaves? | Noticias del MIT

You missed

Vercel lanza Eve: un marco de agentes de IA de código abierto donde cada agente es un directorio de archivos asignados a capacidades

El ADN revela que un antiguo asesino ya era mortal hace 5.500 años: ScienceAlert

Microamp de Varsovia recauda 6,5 millones de euros para respaldar la tecnología de red europea 5G y 6G

Una partícula fantasma del mediodía cósmico apunta a una clase oculta de fábrica de neutrinos