Pixel Transformer (PiT): desde una perspectiva de polarización inductiva
Meta AI publicó el informe técnico la semana pasada sobre arXiv: «Una imagen vale más que 16*16 parches”. En lugar de proponer un método novedoso, el informe técnico respondió a una pregunta de larga data: ¿Tiene sentido utilizar píxeles en lugar de parches como tokens de entrada? Si es así, ¿por qué?
El documento adoptó la perspectiva de Sesgo inductivo de localidad. Según el conocido K. Murphy libro de aprendizaje automático, sesgo inductivo es el «Suposiciones sobre la naturaleza de la distribución de datos..” En la temprana era del “aprendizaje no profundo”, el sesgo inductivo estaba más “relacionado con las funciones” y provenía de la función manual diseñada para tareas específicas. Este sesgo inductivo no fue malo, especialmente para tareas específicas en las que se obtiene muy buen conocimiento previo de expertos humanos, lo que hace que las funciones de ingeniería sean muy útiles. Sin embargo, desde la perspectiva de la generalización, las características de ingeniería son muy difíciles de generalizar a tareas universales, como la clasificación y segmentación general de imágenes.
Pero más allá del sesgo de características, la arquitectura misma contiene también un sesgo inductivo. El ViT es un gran ejemplo que muestra un sesgo menos inductivo que los modelos CNN en términos de Jerarquía arquitectónica, uniformidad de propagación, escala de representación y localidad de atención.. Vea mi publicación mediana anterior para una discusión detallada.. Pero aún así, ViT sigue siendo un tipo especial de sesgo inductivo: localidad. Cuando ViT procesa una secuencia de tokens de parche, el modelo trata naturalmente los píxeles dentro del mismo parche de manera diferente que los de parches diferentes. Y de ahí viene la localidad.
Entonces, ¿es posible eliminar aún más el sesgo inductivo de localidad? La respuesta es sí. El PiT propuso utilizar el «conjunto de píxeles» como entrada con diferentes estrategias de incrustación de posición (PE): sen-cos, aprendida y ninguna. Mostró un rendimiento superior a ViT en tareas supervisadas, autosupervisadas y de generación. La tubería propuesta se muestra en la siguiente figura.
La idea parece simple y directa, y los autores afirman que «no están introduciendo un método nuevo» aquí. Pero aún así, el PiT muestra un gran potencial. En las tareas de clasificación supervisadas de CIFAR-100 e ImageNet (tamaño de entrada reducido a 28*28), la precisión de la clasificación aumentó en más del 2 % con respecto a ViT. Vea la tabla a continuación.
También se observó una mejora similar en las tareas de aprendizaje autosupervisadas y en las tareas de generación de imágenes. Es más, los autores también mostraron la tendencia de un aumento en el rendimiento al reducir el tamaño del parche de 8*8 a 1*1 (un solo píxel) como se muestra a continuación:
En términos de codificación posicional.
Como se señala en este trabajo de investigación, la codificación posicional es un requisito previo en los modelos basados en transformadores para ordenar la secuencia de tokens de entrada y mejorar la precisión. Sin embargo, el PiT muestra que incluso después de eliminar el PE, la caída del rendimiento del modelo es mínima:
¿Por qué abandonar la codificación posicional? No es sólo porque eliminar la codificación posicional significa una buena reducción del sesgo de localidad. Si pensamos en el cálculo de la autoatención de forma distribuida, reducirá en gran medida el esfuerzo de comunicación entre dispositivos, que analizaremos en detalle en la siguiente sección.