La atención cruzada es una herramienta fundamental en la creación de modelos de IA que pueden comprender múltiples formas de datos simultáneamente. Piense en modelos de idiomas que pueden entender imágenes como las que se usan en ChatGPT, o modelos que generan videos basados en texto como Sora.
Este resumen revisa todas las operaciones matemáticas críticas dentro de la atención cruzada, lo que le permite comprender su funcionamiento interno a un nivel fundamental.
La atención cruzada se usa al modelar con una variedad de tipos de datos, cada uno de los cuales podría formatear la entrada de manera diferente. Para los datos del lenguaje natural, probablemente use una palabra para la incrustación vectorial, combinada con codificación posicional, para calcular un vector que represente cada palabra.
Para los datos visuales, uno podría pasar la imagen a través de un codificador diseñado específicamente para resumir la imagen en una representación vectorial.