La guía definitiva sobre los transformadores de visión | por François Porcher | agosto de 2024

Una guía completa sobre el Vision Transformer (ViT) que revolucionó la visión por computadora

¡Hola a todos! Para aquellos que aún no me conocen, mi nombre es Francois, soy un científico investigador en Meta. Me apasiona explicar conceptos avanzados de IA y hacerlos más accesibles.

Hoy, vamos a sumergirnos en una de las contribuciones más significativas en el campo de la Visión por Computador: la Transformador de Visión (ViT).

Convertir una imagen en parches, imagen por autor

El Vision Transformer fue presentado por Alexey Dosovitskiy y otros (Google Brain) en 2021 en el artículo Una imagen vale más que 16×16 palabrasEn su momento, Transformers había demostrado ser la clave para lograr un gran rendimiento en las tareas de PNL, introducidas en el artículo imprescindible La atención es todo lo que necesitas en 2017.

Entre 2017 y 2021, hubo varios intentos de integrar el mecanismo de atención en redes neuronales convolucionales (CNN). Sin embargo, estos eran en su mayoría modelos híbridos (que combinaban capas de CNN con capas de atención) y carecían de escalabilidad. Google abordó este problema eliminando por completo las convoluciones y aprovechando su potencia computacional para escalar el modelo.