La revolución del aprendizaje profundo en la visión por computadora ha pasado de funciones creadas manualmente a enfoques basados en datos, lo que destaca el potencial de reducir los sesgos de las funciones. Este cambio de paradigma tiene como objetivo crear sistemas más versátiles que sobresalgan en diversas tareas de visión. Si bien la arquitectura Transformer ha demostrado eficacia en diferentes modalidades de datos, aún conserva algunos sesgos inductivos. Vision Transformer (ViT) reduce la jerarquía espacial pero mantiene la equivarianza de traducción y la localidad a través de proyección de parches e incrustaciones de posición. El desafío radica en eliminar estos sesgos inductivos restantes para mejorar aún más el rendimiento y la versatilidad del modelo.
Los intentos anteriores de abordar la localidad en las arquitecturas de visión han sido limitados. La mayoría de las arquitecturas de visión modernas, incluidas aquellas destinadas a simplificar los sesgos inductivos, aún mantienen la localidad en su diseño. Incluso las funciones visuales previas al aprendizaje profundo, como SIFT y HOG, utilizaban descriptores locales. Los esfuerzos para eliminar la localidad en ConvNets, como reemplazar los filtros convolucionales espaciales con filtros 1×1, dieron como resultado una degradación del rendimiento. Otros enfoques, como iGPT y Perceiver, exploraron el procesamiento a nivel de píxeles, pero enfrentaron desafíos de eficiencia o no alcanzaron el rendimiento en comparación con métodos más simples.
Investigadores de FAIR, Meta AI y la Universidad de Amsterdam cuestionan la creencia convencional de que la localidad es un sesgo inductivo fundamental para las tareas de visión. Descubren que al tratar los píxeles individuales como tokens para el Transformador y utilizar incrustaciones de posiciones aprendidas, eliminar los sesgos inductivos de localidad conduce a un mejor rendimiento que los enfoques convencionales como ViT. Llaman a este enfoque “Pixel Transformer” (PiT) y demuestran su eficacia en diversas tareas, incluida la clasificación supervisada, el aprendizaje autosupervisado y la generación de imágenes con modelos de difusión. Curiosamente, PiT supera a las líneas de base equipadas con sesgos inductivos de localidad. Sin embargo, los investigadores reconocen que, si bien la localidad puede no ser necesaria, sigue siendo útil por consideraciones prácticas como la eficiencia computacional. Este estudio transmite un mensaje convincente de que la localidad no es un sesgo inductivo indispensable para el diseño de modelos.
PiT sigue de cerca la arquitectura estándar del codificador Transformer, procesando un conjunto desordenado de píxeles de la imagen de entrada con incrustaciones de posiciones que se pueden aprender. La secuencia de entrada se asigna a una secuencia de representaciones a través de múltiples capas de bloques de Autoatención y MLP. Cada píxel se proyecta en un vector de alta dimensión a través de una capa de proyección lineal y se puede aprender. [cls] El token se agrega a la secuencia. Las incorporaciones de posiciones independientes del contenido se aprenden para cada posición. Este diseño elimina el sesgo inductivo de localidad y hace que la permutación de PiT sea equivariante a nivel de píxel.
En evaluaciones empíricas, PiT demuestra un desempeño competitivo en diversas tareas. Para la generación de imágenes utilizando modelos de difusión, PiT-L supera al DiT-L/2 de referencia en múltiples métricas, incluidas FID, sFID e IS. La eficacia de PiT se generaliza bien en diferentes tareas, arquitecturas y representaciones operativas. Además, en los resultados de CIFAR100 con entradas de 32×32, PiT supera sustancialmente a ViT. Los investigadores descubrieron que para PiT, el preentrenamiento autosupervisado con MAE mejora la precisión en comparación con el entrenamiento desde cero. La brecha entre ViT y PiT, con entrenamiento previo, aumenta al pasar de modelos Tiny a Small. Esto sugiere que PiT potencialmente puede escalar mejor que ViT.
Si bien PiT demuestra que los Transformers pueden trabajar directamente con píxeles individuales como tokens, persisten limitaciones prácticas debido a la complejidad computacional. No obstante, esta exploración desafía la noción de que la localidad es fundamental para los modelos de visión y sugiere que la parcheificación es principalmente una eficiencia comercial heurística útil para la precisión. Este hallazgo abre nuevas vías para diseñar modelos de próxima generación en visión por computadora y más allá, lo que podría conducir a arquitecturas más versátiles y escalables que dependen menos de antecedentes inducidos manualmente y más de alternativas aprendibles basadas en datos.
Revisar la Papel. Todo el crédito por esta investigación va a los investigadores de este proyecto. Además, no olvides seguirnos en Gorjeo.
Únete a nuestro Canal de telegramas y LinkedIn Grarriba.
Si te gusta nuestro trabajo, te encantará nuestro Boletin informativo..
No olvides unirte a nuestro SubReddit de 44k+ ML
Asjad es consultor interno en Marktechpost. Está cursando B.Tech en ingeniería mecánica en el Instituto Indio de Tecnología, Kharagpur. Asjad es un entusiasta del aprendizaje automático y el aprendizaje profundo que siempre está investigando las aplicaciones del aprendizaje automático en la atención médica.