Compresión del modelo sin compromiso: las redes neuronales-resistuales de bucle muestran resultados comparables a variantes GPT-2 más grandes utilizando un refinamiento iterativo

La arquitectura del transformador ha revolucionado el procesamiento del lenguaje natural, lo que permite a los modelos como GPT predecir el siguiente token en una secuencia de manera eficiente. Sin embargo, estos modelos sufren una limitación fundamental de realizar una proyección de un paso de todos los tokens anteriores para predecir el siguiente token, lo que restringe su capacidad de refinamiento iterativo. Los transformadores aplican un esfuerzo computacional constante independientemente de la complejidad o ambigüedad del token predicho, sin mecanismos para reconsiderar o refinar sus predicciones. Las redes neuronales tradicionales, incluidos los transformadores, las secuencias de entrada de mapas para predecir en un solo pase hacia adelante, procesar entradas a través de múltiples capas para refinar las representaciones internas.

Universal Transformers introdujo la aplicación recurrente de capas de transformadores para capturar dependencias a corto y largo plazo mediante representaciones de refinamiento iterativamente. Sin embargo, los experimentos se limitaron a modelos y conjuntos de datos más pequeños en lugar de modelos de lenguaje a gran escala como GPT-2. Los modelos de tiempo de cálculo adaptativo permitieron la determinación dinámica de los pasos computacionales por entrada, pero se aplican principalmente a arquitecturas RNN simples y se prueban en tareas a pequeña escala sin usar arquitectura del transformador o pretrenesa a gran escala. Los transformadores de profundidad adaptados a la profundidad de red ajustada en función de la entrada, lo que permite la inferencia dinámica seleccionando el número de capas para aplicar por secuencia de entrada. Sin embargo, estos enfoques carecen del diseño residual predictivo que se encuentra en las arquitecturas más avanzadas.

Investigadores de HKU han propuesto una nueva red neuronal resistual de bucle que revisa las entradas varias veces, refinando las predicciones al bucle iterativamente sobre un subconjunto del modelo con conexiones residuales. Mejora el rendimiento del transformador con tiempos de inferencia más largos utilizando una arquitectura de bucle novedosa con predicción residual. Este enfoque funciona de manera efectiva para grandes redes neuronales sin requerir datos de capacitación adicionales, extendiendo la capacidad de aproximación del modelo. Su efectividad se muestra a través de experimentos que comparan las versiones GPT-2 estándar con modelos resistuales de bucle. En particular, su modelo GPT-2-81M logra una pérdida de validación de 3.11 en el conjunto de datos OpenWebText, comparable a la pérdida del modelo GPT-2-124M de 3.12.

El residual de bucle implica dos experimentos. Primero, se compara con el modelo GPT-2 con el modelo GPT-2 con parámetros de 124m (GPT2-124m). Mientras que GPT2-124M consta de 12 capas del transformador como línea de base, el bucle-residual GPT2-81M usa 6 bucles en 6 capas del transformador. El segundo experimento compara un GPT-2-resistual de bucle con parámetros de 45M (GPT2-45M) con un modelo LITE GPT-2 de tamaño idéntico (GPT2-45M-Lite). El GPT2-45M-LITE presenta una sola capa de bloque de transformador para la predicción de un paso, mientras que la versión-resistual de bucle se dispara dos veces sobre un solo bloque de transformador. Ambos experimentos utilizan el conjunto de datos OpenWebText con tiempos de época de entrenamiento medidos de 150 ms para GPT2-45M-LITE, 177 ms para el residual de bucle GPT2-45M y 1.377 ms para GPT2-81M.

En el primer experimento, el modelo GPT2-81M-residual de bucle logra una pérdida de validación de 3.11 en el conjunto de datos OpenWebText, comparable a la pérdida del modelo GPT2-124M de 3.12. Este resultado es significativo porque el modelo de bucle-resistual usa 35% menos parámetros y la mitad del número de capas únicas en comparación con el modelo GPT2-124M. Esto muestra que el refinamiento iterativo a través del mecanismo resistual de bucle mejora la capacidad de aproximación del modelo. En el segundo experimento, el modelo de residual de bucle logra una pérdida de validación de 3.67 en comparación con 3.98 y una pérdida de entrenamiento de 3.65 en comparación con 3.96. Al pasar dos veces en un solo bloque de transformador, el modelo simula efectivamente una red más profunda, lo que resulta en ganancias de rendimiento sustanciales sobre la línea de base de un paso sin aumentar el tamaño del modelo.

En conclusión, los investigadores introdujeron la red neuronal-resistual de bucle, que permite a los modelos de red neuronales más pequeños lograr mejores resultados en dispositivos de gama baja mediante la utilización de tiempos de inferencia más largos a través del refinamiento iterativo. Este método captura patrones y dependencias complejas de manera más efectiva que los modelos de un paso convencionales. Los experimentos muestran que los modelos resistuales de bucle pueden lograr un rendimiento mejorado en los modelos de referencia del mismo tamaño y un rendimiento comparable a modelos más grandes con menos parámetros. La dirección futura incluye nuevas posibilidades para las arquitecturas de redes neuronales, especialmente para las tareas que se benefician de un razonamiento computacional más profundo en dispositivos con recursos limitados.


Aquí está el Papel. Además, no olvides seguirnos Gorjeo y únete a nuestro Canal de telegrama y LinkedIn GRsalpicar. No olvides unirte a nuestro 90k+ ml de subreddit.

🔥 [Register Now] Conferencia virtual de Minicon sobre AI agente: registro gratuito + Certificado de asistencia + Evento corto de 4 horas (21 de mayo, 9 am- 1 pm PST) + Hands on Workshop


Sajjad Ansari es un pregrado de último año de IIT Kharagpur. Como entusiasta de la tecnología, profundiza en las aplicaciones prácticas de la IA con un enfoque en comprender el impacto de las tecnologías de IA y sus implicaciones del mundo real. Su objetivo es articular conceptos complejos de IA de manera clara y accesible.