A pesar del éxito de Vision Transformers (ViT) en tareas como clasificación y generación de imágenes, enfrentan importantes desafíos en el manejo de tareas abstractas que involucran relaciones entre objetos. Una limitación clave es su dificultad para realizar con precisión tareas relacionales visuales, como determinar si dos objetos son iguales o diferentes. El razonamiento relacional, que requiere comprender las relaciones espaciales o comparativas entre entidades, es una fortaleza natural de la visión humana, pero sigue siendo un desafío para los sistemas de visión artificial. Si bien los ViT sobresalen en tareas semánticas a nivel de píxeles, tienen dificultades con las operaciones abstractas necesarias para el razonamiento relacional, y a menudo dependen de la memorización en lugar de comprender genuinamente las relaciones. Esta limitación afecta el desarrollo de modelos de IA capaces de realizar tareas avanzadas de razonamiento visual, como la respuesta visual a preguntas y comparaciones de objetos complejos.
Para abordar estos desafíos, un equipo de investigadores de la Universidad de Brown, la Universidad de Nueva York y la Universidad de Stanford emplea métodos de interpretabilidad mecanicista para examinar cómo los ViT procesan y representan las relaciones visuales. Los investigadores presentan un estudio de caso centrado en una tarea de razonamiento relacional fundamental pero desafiante: determinar si dos entidades visuales son idénticas o diferentes. Al entrenar a ViTs previamente entrenados en estas tareas «iguales y diferentes», observaron que los modelos exhiben dos etapas distintas de procesamiento, a pesar de no tener sesgos inductivos específicos que los guíen. La primera etapa implica extraer características locales del objeto y almacenarlas en una representación desenredada, denominada etapa perceptual. A esto le sigue una etapa relacional, donde estas representaciones de objetos se comparan para determinar las propiedades relacionales.
Estos hallazgos sugieren que los ViT pueden aprender a representar relaciones abstractas hasta cierto punto, lo que indica el potencial de modelos de IA más generalizados y flexibles. Sin embargo, las fallas en las etapas perceptual o relacional pueden impedir que el modelo aprenda una solución generalizable a las tareas visuales, lo que resalta la necesidad de modelos que puedan manejar de manera efectiva las complejidades tanto perceptivas como relacionales.
Información técnica
El estudio proporciona información sobre cómo los ViT procesan las relaciones visuales a través de un mecanismo de dos etapas. En la etapa de percepción, el modelo desenreda las representaciones de objetos prestando atención a características como el color y la forma. En experimentos que utilizan dos tareas “iguales y diferentes” (una tarea de discriminación y una tarea de coincidencia relacional con muestra (RMTS), los autores muestran que los ViT entrenados en estas tareas desenredan con éxito los atributos de los objetos, codificándolos por separado en sus representaciones intermedias. Este desenredo facilita que los modelos realicen operaciones relacionales en las etapas posteriores. Luego, la etapa relacional utiliza estas características codificadas para determinar relaciones abstractas entre objetos, como evaluar la igualdad o diferencia según el color o la forma.
El beneficio de este mecanismo de dos etapas es que permite a los ViT lograr un enfoque más estructurado del razonamiento relacional, lo que permite una mejor generalización más allá de los datos de entrenamiento. Al emplear el análisis de patrones de atención, los autores demuestran que estos modelos utilizan distintas cabezas de atención para operaciones locales y globales, pasando del procesamiento a nivel de objeto a comparaciones entre objetos en capas posteriores. Esta división del trabajo dentro del modelo revela una estrategia de procesamiento que refleja cómo operan los sistemas biológicos, pasando de la extracción de características al análisis relacional de manera jerárquica.
Este trabajo es importante porque aborda la brecha entre el razonamiento relacional visual abstracto y las arquitecturas basadas en transformadores, que tradicionalmente han estado limitadas en el manejo de tales tareas. El artículo proporciona evidencia de que los ViT previamente entrenados, como los entrenados con las arquitecturas CLIP y DINOv2, son capaces de lograr una alta precisión en tareas de razonamiento relacional cuando se ajustan adecuadamente. Específicamente, los autores señalan que los ViT preentrenados con CLIP y DINOv2 lograron casi un 97% de precisión en un conjunto de pruebas después de un ajuste fino, lo que demuestra su capacidad de razonamiento abstracto cuando se guían de manera efectiva.
Otro hallazgo clave es que la capacidad de los ViT para tener éxito en el razonamiento relacional depende en gran medida de si las etapas de procesamiento perceptivo y relacional están bien desarrolladas. Por ejemplo, los modelos con un proceso claro de dos etapas mostraron una mejor generalización a estímulos fuera de distribución, lo que sugiere que las representaciones perceptuales efectivas son fundamentales para un razonamiento relacional preciso. Esta observación se alinea con la conclusión de los autores de que mejorar los componentes perceptivos y relacionales de las ViT puede conducir a una inteligencia visual más sólida y generalizada.
Conclusión
Los hallazgos de este artículo arrojan luz sobre las limitaciones y el potencial de Vision Transformers cuando se enfrentan a tareas de razonamiento relacional. Al identificar distintas etapas de procesamiento dentro de los ViT, los autores proporcionan un marco para comprender y mejorar cómo estos modelos manejan las relaciones visuales abstractas. El modelo de dos etapas, que comprende una etapa perceptual y una etapa relacional, ofrece un enfoque prometedor para cerrar la brecha entre la extracción de características de bajo nivel y el razonamiento relacional de alto nivel, que es crucial para aplicaciones como la respuesta visual a preguntas y la comparación de imágenes y texto. .
La investigación subraya la importancia de abordar las deficiencias tanto perceptivas como relacionales en las ViT para garantizar que puedan generalizar su aprendizaje a nuevos contextos de manera efectiva. Este trabajo allana el camino para futuros estudios destinados a mejorar las capacidades relacionales de los ViT, transformándolos potencialmente en modelos capaces de una comprensión visual más sofisticada.
Verificar el papel aquí. Todo el crédito por esta investigación va a los investigadores de este proyecto. Además, no olvides seguirnos en Gorjeo y únete a nuestro Canal de telegramas y LinkedIn Grarriba. Si te gusta nuestro trabajo, te encantará nuestro hoja informativa.. No olvides unirte a nuestro SubReddit de más de 55.000 ml.
[FREE AI VIRTUAL CONFERENCE] SmallCon: Conferencia virtual gratuita sobre GenAI con Meta, Mistral, Salesforce, Harvey AI y más. Únase a nosotros el 11 de diciembre en este evento virtual gratuito para aprender lo que se necesita para construir a lo grande con modelos pequeños de pioneros de la IA como Meta, Mistral AI, Salesforce, Harvey AI, Upstage, Nubank, Nvidia, Hugging Face y más.
A Sana Hassan, pasante de consultoría en Marktechpost y estudiante de doble titulación en IIT Madras, le apasiona aplicar la tecnología y la inteligencia artificial para abordar los desafíos del mundo real. Con un gran interés en resolver problemas prácticos, aporta una nueva perspectiva a la intersección de la IA y las soluciones de la vida real.