Un parche tiene más de 16*16 píxeles | de Mengliu Zhao

Pixel Transformer (PiT): desde una perspectiva de polarización inductiva

Meta AI publicó el informe técnico la semana pasada sobre arXiv: “Una imagen vale más que 16*16 parches”. En lugar de proponer un método novedoso, el informe técnico respondió a una pregunta de larga data: ¿Tiene sentido utilizar píxeles en lugar de parches como tokens de entrada? Si es así, ¿por qué?

El documento adoptó la perspectiva de Sesgo inductivo de localidad. Según el conocido K. Murphy libro de aprendizaje automático, sesgo inductivo es el “Suposiciones sobre la naturaleza de la distribución de datos..” En la temprana era del “aprendizaje no profundo”, el sesgo inductivo estaba más “relacionado con las funciones” y provenía de la función manual diseñada para tareas específicas. Este sesgo inductivo no fue malo, especialmente para tareas específicas en las que se obtiene muy buen conocimiento previo de expertos humanos, lo que hace que las funciones de ingeniería sean muy útiles. Sin embargo, desde la perspectiva de la generalización, las características de ingeniería son muy difíciles de generalizar a tareas universales, como la clasificación y segmentación general de imágenes.

Pero más allá del sesgo de características, la arquitectura misma contiene también un sesgo inductivo. El ViT es un gran ejemplo que muestra un sesgo menos inductivo que los modelos CNN en términos de Jerarquía arquitectónica, uniformidad de propagación, escala de representación y localidad de atención.. Vea mi publicación mediana anterior para una discusión detallada.. Pero aún así, ViT sigue siendo un tipo especial de sesgo inductivo: localidad. Cuando ViT procesa una secuencia de tokens de parche, el modelo trata naturalmente los píxeles dentro del mismo parche de manera diferente que los de parches diferentes. Y de ahí viene la localidad.

Entonces, ¿es posible eliminar aún más el sesgo inductivo de localidad? La respuesta es sí. El PiT propuso utilizar el “conjunto de píxeles” como entrada con diferentes estrategias de incrustación de posición (PE): sen-cos, aprendida y ninguna. Mostró un rendimiento superior a ViT en tareas supervisadas, autosupervisadas y de generación. La tubería propuesta se muestra en la siguiente figura.

Tubería de transformador de píxeles. Fuente de imagen: https://arxiv.org/abs/2406.09415

La idea parece simple y directa, y los autores afirman que “no están introduciendo un método nuevo” aquí. Pero aún así, el PiT muestra un gran potencial. En las tareas de clasificación supervisadas de CIFAR-100 e ImageNet (tamaño de entrada reducido a 28*28), la precisión de la clasificación aumentó en más del 2 % con respecto a ViT. Vea la tabla a continuación.

Clasificación del aprendizaje supervisado. Fuente de imagen: https://arxiv.org/pdf/2406.09415

También se observó una mejora similar en las tareas de aprendizaje autosupervisadas y en las tareas de generación de imágenes. Es más, los autores también mostraron la tendencia de un aumento en el rendimiento al reducir el tamaño del parche de 8*8 a 1*1 (un solo píxel) como se muestra a continuación:

Aumento del rendimiento de ViT (parche 8*8) a PiT (parche 1*1). Imagen de: https://arxiv.org/pdf/2406.09415

En términos de codificación posicional.

Como se señala en este trabajo de investigación, la codificación posicional es un requisito previo en los modelos basados en transformadores para ordenar la secuencia de tokens de entrada y mejorar la precisión. Sin embargo, el PiT muestra que incluso después de eliminar el PE, la caída del rendimiento del modelo es mínima:

Rendimiento de PiT utilizando tres PE diferentes: 1. PE sen-cos fijo; 2. educación física que se pueda aprender; 3. sin educación física. Fuente de imagen: https://arxiv.org/pdf/2406.09415

¿Por qué abandonar la codificación posicional? No es sólo porque eliminar la codificación posicional significa una buena reducción del sesgo de localidad. Si pensamos en el cálculo de la autoatención de forma distribuida, reducirá en gran medida el esfuerzo de comunicación entre dispositivos, que analizaremos en detalle en la siguiente sección.

Un parche tiene más de 16*16 píxeles | de Mengliu Zhao | junio de 2024

ByEquipo de 7 minutos

By Equipo de 7 minutos

Related Post

Resolver el problema de probabilidad de cadenas 3Blue1Brown (sin IA)

Una implementación de codificación en MONAI para la segmentación del bazo en 3D de extremo a extremo utilizando UNet en volúmenes de TC médicos

Cómo crear un espacio de trabajo para agentes de QwenPaw con habilidades personalizadas, proveedores de modelos, acceso a la consola y pruebas de API de transmisión

You missed

El ‘espejo espía’ del telescopio espacial romano Nancy Grace de la NASA podría transformar la forma en que mapeamos el universo

Hoy en la historia de la Corte Suprema: 13 de junio de 1977

“Abrí la puerta y vi el cuerpo de mi vecino y mucho humo. No podíamos salir”

James Harden arrestado y acusado de portar ilegalmente un arma en Houston