Screenshot 2024 04 06 At 1.18.47 Pm.png

La creación de arquitecturas de aprendizaje profundo requiere muchos recursos porque implica un gran espacio de diseño, largos períodos de creación de prototipos y cálculos costosos relacionados con la capacitación y evaluación de modelos a escala. Las mejoras arquitectónicas se logran a través de un proceso de desarrollo opaco guiado por heurísticas y experiencia individual en lugar de procedimientos sistemáticos. Esto se debe a la explosión combinatoria de posibles diseños y a la falta de procesos de creación de prototipos confiables a pesar de los avances en los métodos automatizados de búsqueda de arquitectura neuronal. La necesidad de procesos de diseño ágiles y basados ​​en principios se ve aún más enfatizada por los altos gastos y los largos períodos de iteración relacionados con la capacitación y prueba de nuevos diseños, lo que exacerba el problema.

A pesar de la abundancia de diseños arquitectónicos potenciales, la mayoría de los modelos utilizan variantes de una receta Transformer estándar que alterna entre mezcladores basados ​​en memoria (capas de autoatención) y sin memoria (FFN superficiales). El diseño original de Transformer es la base de este conjunto específico de primitivas computacionales conocidas por mejorar la calidad. La evidencia empírica sugiere que estos primitivos sobresalen en subtareas específicas dentro del modelado de secuencias, como el contexto versus el recuerdo de hechos.

Investigadores de Together AI, la Universidad de Stanford, Hessian AI, RIKEN, Arc Institute, CZ Biohub y Liquid AI investigan la optimización de la arquitectura, desde reglas de escala hasta actividades artificiales que prueban ciertas capacidades del modelo. Introducen el diseño arquitectónico mecanicista (MAD), un enfoque para pruebas y prototipos de arquitectura rápidos. Seleccionado para funcionar como pruebas unitarias discretas para características críticas de la arquitectura, MAD comprende un conjunto de actividades sintéticas como compresión, memorización y recuperación que requieren solo unos minutos de tiempo de entrenamiento. El desarrollo de mejores métodos para manipular secuencias, como el aprendizaje y la recuperación en contexto, ha llevado a una mejor comprensión de modelos de secuencia como Transformers, lo que ha inspirado problemas MAD.

Utilizando MAD, el equipo evalúa diseños que utilizan primitivas computacionales conocidas y desconocidas, incluidas convoluciones cerradas, recurrencias lineales variables de entrada cerradas y operadores adicionales como mezclas de expertos (MoE). Utilizan MAD para filtrar y encontrar candidatos potenciales para arquitectura. Esto ha llevado al descubrimiento y validación de varias estrategias de optimización del diseño, como la creación de arquitecturas híbridas entrelazando secuencialmente bloques hechos de varias primitivas computacionales con una topología de conexión predeterminada.

Los investigadores investigan el vínculo entre los sintéticos MAD y el escalado del mundo real entrenando 500 modelos de lenguaje con diversas arquitecturas y entre 70 y 7 mil millones de parámetros para realizar el análisis de ley de escala más amplio en arquitecturas en desarrollo. Las reglas de escalado para LSTM y Transformers de computación óptima son la base de su protocolo. En general, los diseños híbridos superan a sus contrapartes no híbridas en escalamiento, lo que reduce las pérdidas de preentrenamiento en un rango de presupuestos de cómputo FLOP en la frontera de cómputo óptimo. Su trabajo también demuestra que las arquitecturas novedosas son más resistentes a ejecuciones extensas de preentrenamiento fuera de la frontera óptima.

El tamaño del estado, similar a los kv-caches en los Transformers estándar, es un factor importante en MAD y su análisis de escala. Determina la eficiencia de la inferencia y el costo de la memoria y probablemente afecte directamente las capacidades de recuperación. El equipo presenta una metodología de escalamiento de estado óptimo para estimar el escalamiento de complejidad con la dimensión de estado de varios diseños de modelos. Descubren diseños híbridos que logran un buen compromiso entre complejidad, dimensión de estado y requisitos informáticos.

Al combinar MAD con primitivas computacionales recientemente desarrolladas, pueden crear arquitecturas híbridas de vanguardia que logran un 20% menos de perplejidad y al mismo tiempo mantienen el mismo presupuesto informático que las principales líneas base Transformer, convolucionales y recurrentes (Transformer++, Hyena, Mamba).

Los hallazgos de esta investigación tienen implicaciones importantes para el aprendizaje automático y la inteligencia artificial. Al demostrar que un conjunto bien elegido de tareas simuladas de MAD puede pronosticar con precisión el desempeño de la ley de escala, el equipo abre la puerta a un diseño de arquitectura automatizado y más rápido. Esto es particularmente relevante para modelos de la misma clase arquitectónica, donde la precisión de MAD está estrechamente asociada con la perplejidad del cálculo óptimo a escala.


Revisar la Papel y GitHub. Todo el crédito por esta investigación va a los investigadores de este proyecto. Además, no olvides seguirnos en Gorjeo. Únete a nuestro Canal de telegramas, Canal de discordiay LinkedIn Grarriba.

Si te gusta nuestro trabajo, te encantará nuestro Boletin informativo..

No olvides unirte a nuestro SubReddit de 39k+ ML


Dhanshree Shenwai es ingeniero en informática y tiene una buena experiencia en empresas de tecnología financiera que cubren el ámbito financiero, tarjetas y pagos y banca con un gran interés en las aplicaciones de IA. Le entusiasma explorar nuevas tecnologías y avances en el mundo en evolución de hoy que facilita la vida de todos.