Las redes neuronales basadas en transformadores han demostrado una gran capacidad para manejar múltiples tareas como generación, edición y respuesta de preguntas de texto. En muchos casos, los modelos que utilizan más parámetros muestran un mejor rendimiento medido por la perplejidad y la alta precisión de las tareas finales. Ésta es la razón principal para el desarrollo de modelos más grandes en las industrias. Sin embargo, los modelos más grandes a veces dan como resultado un mal rendimiento; por ejemplo, el modelo MiniCPM 2B exhibe capacidades comparables a los modelos de lenguaje más grandes, como Llama2-7B, Mistral-7B, Gemma-7B y Llama-13B. Además, es posible que el tamaño de los datos de alta calidad disponibles no siga el mismo ritmo a medida que aumentan los recursos computacionales para entrenar modelos más grandes.
Los métodos actuales para superar estas deficiencias incluyen leyes de escala, modelos basados en energía y modelos de Hopfield. En las leyes de escalamiento, el rendimiento de los modelos aumenta cuando hay un aumento en el tamaño de los modelos y el volumen de datos de entrenamiento. Los modelos basados en energía se han vuelto famosos como una herramienta de modelado fundamental en diferentes áreas del aprendizaje automático durante las últimas décadas. La idea principal de este método es modelar la red neuronal utilizando una función de densidad de probabilidad parametrizada para presentar la distribución en términos de una función de energía que se puede aprender. El último es el modelo de Hopfield, en el que se desarrollaron las redes clásicas de Hopfield como ejemplo de memoria asociativa.
Investigadores del Instituto Central de Investigación, 2012 Laboratories Huawei Technologies Co., Ltd. introdujeron un marco teórico centrado en el proceso de memorización y la dinámica de rendimiento de modelos de lenguaje basados en transformadores (LM). Los investigadores llevaron a cabo una serie de experimentos utilizando GPT-2 en diferentes tamaños de datos para superar los signos de saturación y, al mismo tiempo, entrenaron modelos Vanilla Transformer en un conjunto de datos que constaba de 2 millones de tokens. Los resultados de estos experimentos validaron los resultados teóricos y ofrecieron importantes conocimientos teóricos sobre la pérdida de entropía cruzada óptima que puede guiar y mejorar la toma de decisiones en el entrenamiento de modelos.
Se entrena un LM transformador de 12 capas utilizando la arquitectura y el tokenizador pequeño GPT-2 en el conjunto de datos OpenWebText. Este conjunto de datos es similar al conjunto de datos de WebText utilizado para el entrenamiento del modelo GPT-2 original, que contiene tokens 9B de 8.013.769 documentos. Utilizando diferentes cantidades de datos, se entrenan tres modelos donde se crea un subconjunto que contiene el primer 1% (90M) y el 0,1% (9M) de los datos de OpenWebText. Además, los modelos de transformadores básicos se entrenan utilizando una pequeña cantidad de datos de alta calidad que contienen pares de oraciones en inglés en formación declarativa y están libres de contexto con un tamaño de vocabulario de 68 palabras, donde la tarea es convertir oraciones declarativas en preguntas.
El entrenamiento con el 0,1% (9M) de los datos de OpenWebText muestra un ajuste excesivo y la pérdida de entrenamiento desaparece con las iteraciones. Esto sucede porque las muestras de entrenamiento no están bien separadas, por lo que la energía del modelo disminuye a una suma de algunas funciones delta. Cuando el tamaño del modelo es aproximadamente del orden O (D2) y se entrena con 90 millones de tokens, el modelo puede lograr una pérdida de entrenamiento y validación similar en comparación con la configuración con 9B tokens. Se entrenan dos transformadores básicos de 6 y 10 capas utilizando un tamaño de lote de 8, y las pérdidas de entrenamiento se estabilizan en un valor de alrededor de 1, como se predice en la Proposición.
En conclusión, los investigadores presentaron un marco teórico centrado en el proceso de memorización y la dinámica de rendimiento de los modelos de lenguaje LM basados en transformadores. En este artículo, las redes basadas en transformadores se modelan utilizando memoria asociativa y se resalta la pérdida de entropía cruzada para los tamaños de modelo y datos. Además, los experimentos se llevan a cabo (a) utilizando GPT-2 de diferentes tamaños de datos y (b) entrenando modelos Vanilla Transformer en un conjunto de datos de 2 millones de tokens. Finalmente, se crea una función de energía global para la estructura en capas de los modelos de transformadores utilizando la técnica de mayorización-minimización.
Revisar la Papel. Todo el crédito por esta investigación va a los investigadores de este proyecto. Además, no olvides seguirnos en Gorjeo. Únete a nuestro Canal de telegramas, Canal de discordiay LinkedIn Grarriba.
Si te gusta nuestro trabajo, te encantará nuestro Boletin informativo..
No olvides unirte a nuestro SubReddit de 42k+ ML
Sajjad Ansari es un estudiante de último año de IIT Kharagpur. Como entusiasta de la tecnología, profundiza en las aplicaciones prácticas de la IA centrándose en comprender el impacto de las tecnologías de IA y sus implicaciones en el mundo real. Su objetivo es articular conceptos complejos de IA de una manera clara y accesible.