Modelos de idiomas basados en transformadores Procesar texto analizando las relaciones de palabras en lugar de leer en orden. Utilizan mecanismos de atención para centrarse en las palabras clave, pero el manejo de texto más largo es un desafío. El Función softmaxque distribuye la atención, se debilita a medida que el tamaño de entrada crece, causando la atención. Esto reduce el enfoque del modelo en palabras importantes, lo que hace que sea más difícil aprender de los textos largos. A medida que los valores de atención se vuelven más pequeños, los detalles se vuelven poco claros, lo que hace que el modelo sea ineficaz para entradas más grandes. A menos que haya una modificación en el mecanismo de atención, el modelo no se centra en la información esencial y, por lo tanto, no funciona bien en las entradas de texto más grandes.
Los métodos actuales para mejorar la generalización de la longitud en los modelos basados en transformadores incluyen codificación posicional, atención escasa, entrenamiento extendido en textos más largos y mecanismos de atención mejorados. Estos métodos no son escalables y requieren muchos recursos computacionales, lo que los hace ineficientes para manejar entradas largas. La función Softmax, utilizada en el caso de la distribución de atención en los transformadores, se degrada a medida que crece el tamaño de entrada. Para más tokens, Softmax genera más distribuciones planas de probabilidades que conducen a disminuir el énfasis en las palabras clave. Tal fenómeno se conoce como desvanecimiento de atención, limitando severamente la capacidad del modelo para procesar texto largo.
Para mitigar el desvanecimiento de la atención en Transformers, propuso un investigador de la Universidad de Tokio Softmax escalable (SSMAX)que modifica la función Softmax para mantener la atención en tokens importantes incluso cuando aumenta el tamaño de la entrada. A diferencia de Softmax, que hace que la atención se propague a medida que la entrada crece, Ssmax Ajusta el factor de escala en función del tamaño de la entrada, asegurando que el valor más alto permanezca dominante. Esto evita la pérdida de enfoque en la información clave en contextos más grandes. Este marco incorpora un factor de escala que involucra el tamaño de la entrada, que altera la fórmula para calcular la atención mediante el uso de un logaritmo. El modelo se adapta dinámicamente para concentrarse en elementos relevantes cuando las variaciones se aplican y distribuyen atención cuando se usan valores similares. Ssmax Se integra fácilmente en las arquitecturas existentes con cambios mínimos, lo que requiere solo una multiplicación simple en el cálculo de atención.
Evaluar el impacto de reemplazar Softmax con Softmax escalable (SSMAX) En capas de atención, el investigador realizó experimentos sobre eficiencia de capacitación, generalización de contexto largo, recuperación de información clave y asignación de atención. Probaron seis configuraciones, incluyendo Softmax estándar, Ssmax con y sin un parámetro de escala, SSMAX con un parámetro de polarización, y dos modelos donde Softmax se reemplazó con SSMAX después o durante la pretruación. SSMAX mejoró constantemente la eficiencia de entrenamiento y la generalización de contexto largo, reduciendo la pérdida de prueba en las longitudes de secuencia extendida. El Aguja-in-a-haystack La prueba reveló que SSMAX mejoró significativamente la recuperación de información clave en contextos largos. Sin embargo, eliminar el parámetro de escala o agregar un sesgo degradado el rendimiento. Los modelos donde Softmax se reemplazó con SSMAX después del entrenamiento o tardía en el pretratenamiento, mostraron mejoras parciales, pero no lograron igualar los modelos SSMAX totalmente entrenados.
En resumen, este método propuesto mejoró la atención del transformador, que derrota el desvanecimiento de la atención y fortalece la generalización de longitud, lo que hace que los modelos sean más efectivos en las tareas de contexto largo. Su adaptabilidad benefició a los modelos recién entrenados y existentes, posicionándola como una alternativa fuerte a Softmax. El futuro puede optimizar Ssmax Para la eficiencia e integrarlo en modelos de transformadores emergentes para mejorar la comprensión de contexto largo en aplicaciones del mundo real.
Verificar el Papel. Todo el crédito por esta investigación va a los investigadores de este proyecto. Además, no olvides seguirnos Gorjeo y únete a nuestro Canal de telegrama y LinkedIn GRsalpicar. No olvides unirte a nuestro 75k+ ml de subreddit.
Divyesh es un pasante de consultoría en MarktechPost. Está buscando un BTech en ingeniería agrícola y alimentaria del Instituto Indio de Tecnología, Kharagpur. Es un entusiasta de la ciencia de datos y el aprendizaje automático que quiere integrar estas tecnologías líderes en el dominio agrícola y resolver desafíos.