Atención cruzada de múltiples cabezas-a mano | por Daniel Warfield | Enero de 2025

Computación a mano Un componente fundamental de los modelos multimodales

“Crossing” de Daniel Warfield usando MidJourney y Affinity Design 2. Todas las imágenes del autor a menos que se especifique lo contrario. Artículo que originalmente pone a disposición en Explicado intuitivamente y exhaustivamente.

La atención cruzada es una herramienta fundamental en la creación de modelos de IA que pueden comprender múltiples formas de datos simultáneamente. Piense en modelos de idiomas que pueden entender imágenes como las que se usan en ChatGPT, o modelos que generan videos basados ​​en texto como Sora.

Este resumen revisa todas las operaciones matemáticas críticas dentro de la atención cruzada, lo que le permite comprender su funcionamiento interno a un nivel fundamental.

La atención cruzada se usa al modelar con una variedad de tipos de datos, cada uno de los cuales podría formatear la entrada de manera diferente. Para los datos del lenguaje natural, probablemente use una palabra para la incrustación vectorial, combinada con codificación posicional, para calcular un vector que represente cada palabra.

Para los datos visuales, uno podría pasar la imagen a través de un codificador diseñado específicamente para resumir la imagen en una representación vectorial.