En este artículo, nos embarcaremos en un divertido viaje por el mundo de los transformadores, desentrañando las complejidades de su arquitectura utilizando la notación de Einstein.
Introducción:
Los modelos Transformer han revolucionado el campo del procesamiento del lenguaje natural (y más allá), logrando resultados de última generación en una variedad de tareas. Tienen un rendimiento impresionante, pero las operaciones matemáticas subyacentes pueden ser complejas y difíciles de entender, especialmente sin desglosar las capas individuales. En este artículo propongo utilizar la notación de Einstein para expresar las operaciones matemáticas dentro de un modelo de transformador.
Tenga en cuenta que la notación de Einstein se utiliza normalmente en Física y Matemáticas, como en Relatividad General, Electromagnetismo, Mecánica Cuántica y de Fluidos, pero también en Álgebra Lineal para representar operaciones matriciales en una forma más compacta.
El objetivo es escribir las operaciones matemáticas de cada capa de forma concisa y elegante. Al aprovechar la suma implícita sobre índices repetidos, la notación de Einstein puede simplificar la representación de las operaciones tensoriales, haciéndola (potencialmente) más fácil de entender y, por lo tanto, implementar las capas individuales de los modelos de transformadores…