CLIP, LLaVA y el cerebro. Lo que la neurociencia puede enseñarnos sobre… | por Jonathan R. Williford, PhD

El aprendizaje profundo y el cerebro

Información sobre transformadores multimodales desde la neurociencia

Imagen generada por el autor usando Dall-E 3.

¿Cómo se comparan las redes de transformadores multimodales recientes, como CLIP (Radford et al. 2021) y LLaVA (Liu et al. 2023), con el cerebro? ¿Existen similitudes entre la atención en estas redes y el cerebro? En este artículo, analizo estas arquitecturas transformadoras prestando atención a las similitudes y diferencias con el cerebro de los mamíferos.

Lo que me llamó la atención fue que los transformadores de visión, CLIP y LLaVA realizan un tipo de procesamiento análogo al procesamiento visual previo a la atención en el cerebro. Este procesamiento se realiza en las respuestas visuales iniciales a un estímulo antes de la recurrencia. Aunque se puede lograr mucho de forma anticipada, los estudios han demostrado que el procesamiento preatentivo anticipado en el cerebro tiene dificultades con:

Distinguir la identidad o características de tipos similares de objetos, especialmente cuando los objetos están muy juntos o desordenados o los objetos no son naturales o artificiales (VanRullen 2007).
Tareas más complejas como contar o tareas de trazado de laberintos o curvas.
Percibir objetos que son más difíciles de ver, como cuando es difícil percibir los límites de los objetos.

En contraste con el procesamiento de retroalimentación, una de las cosas que destaca del cerebro es la riqueza en la interacción de áreas, que analizaré con más detalle en la siguiente sección.

En la mayoría de las arquitecturas de aprendizaje profundo actuales, la actividad se propaga en una sola dirección; por ejemplo, se puede proporcionar una imagen como entrada a una red y luego propagarse de capa en capa hasta llegar a una clasificación como salida.

Figura 1: Un diagrama simplificado que muestra algunas de las conexiones de retroalimentación y retroalimentación en el cerebro del macaco. Las áreas anteriores (o de nivel inferior) son más blancas, mientras que las áreas posteriores (o de nivel superior) son más azules. Imagen del autor.

El cerebro es mucho más interesante que estos modelos feedforward. En el sistema visual, un estímulo se propagará inicialmente desde áreas visuales de nivel inferior a superior en forma anticipada, luego las áreas de nivel superior ejercerán influencia sobre las áreas de nivel inferior, como se muestra en la Figura 1.

Parte de esta retroalimentación es la atención consciente de arriba hacia abajo que nos permite asignar más recursos a objetos y características de interés y eliminar la ambigüedad de estímulos que son complejos o ambiguos. Otra parte de esta retroalimentación es automática y permite que las áreas de nivel superior infundan a las áreas de nivel inferior información que no se conocería simplemente de forma directa.

Se cree que la atención consciente de arriba hacia abajo apoya la conciencia de los estímulos visuales. Sin un acceso consciente a áreas de nivel inferior que codifican fronteras y bordes, no tendríamos una percepción de las fronteras tan espacialmente precisa. Tareas como trazar mentalmente una curva o resolver un laberinto serían imposibles.

Un ejemplo de retroalimentación inconsciente automática es la codificación de propiedad de límites, que se observa en aproximadamente la mitad de las neuronas selectivas de orientación en el área visual V2 (Zhou et al. 2000, Williford y von der Heydt 2013). Estas neuronas codificarán información local en aproximadamente 40 ms y, tan pronto como 10 ms después de esta respuesta inicial, incorporarán un contexto global para resolver oclusiones, manteniendo la información sobre qué objetos están creando fronteras al ocluir sus fondos.

Otro ejemplo de esta retroalimentación inconsciente lo mostraron Poort et al. (2012) utilizando imágenes como la de la Figura 2. En la corteza visual temprana V1 del macaco, las neuronas tenderán a codificar inicialmente (entre 50 y 75 ms después de la presentación del estímulo) solo las características locales dentro de sus campos receptivos (p. ej., cuadrado verde). Sin embargo, después de aproximadamente 75 ms, recibirán retroalimentación de las áreas de nivel superior y tenderán a tener una respuesta más alta cuando esa textura pertenece a una figura, como esta figura definida con textura arriba. Esto sucede incluso cuando se desvía la atención de la figura; sin embargo, si el mono está prestando atención a la figura, las neuronas, en promedio, responderán aún más.

Figura 2: Las formas definidas únicamente por la textura, como la anterior, pueden ser difíciles de ver en una forma pura de “alimentación hacia adelante”. La interacción entre áreas de nivel inferior y superior nos permite percibir formas tan difíciles (Poort et 2012). Imagen del autor.

Una forma de ver esta interacción bidireccional es que cada neurona utiliza constantemente con avidez todas las señales predictivas disponibles. Incluso las áreas de nivel superior pueden ser predictivas, especialmente cuando los límites visuales no corresponden a bordes de contraste significativos de primer orden.

Con todo lo que se habla sobre la atención con la introducción de los transformadores (Vaswani et al. 2017) y con la capacidad de generar oraciones palabra por palabra, es posible que le hagan creer que los transformadores son recurrentes. Sin embargo, no se mantienen estados internos entre los pasos del transformador, solo la salida anterior se proporciona como entrada. Por tanto, la recurrencia es limitada y no tiene la bidireccionalidad omnipresente en el cerebro. Los transformadores tienen atención de múltiples cabezas, que es como poder atender a un número fijo de cosas simultáneamente (8 en el artículo original). Por lo tanto, los transformadores de imágenes pueden verse como análogos al procesamiento previo a la atención con algunas modificaciones.

Figura 3: CLIP entrena un codificador de imágenes y texto usando *pares de leyendas de imágenes. I*₁ y t₁ son las codificaciones de la imagen 1 y el título correspondiente. Se utiliza una pérdida de aprendizaje contrastiva para hacer Iᵢ y tj más parecido cuando i=j y más disímiles cuando i≠j. Las pesas se entrenan desde cero. Figura reproducida con autorización de Radford et al. (2021).

Radford y sus colegas de OpenAI presentaron CLIP en su artículo de 2021 “Aprendizaje de modelos visuales transferibles a partir de la supervisión del lenguaje natural”. La idea detrás de CLIP es simple y se muestra en la Figura 3. Toma un montón de pares de imágenes y títulos de Internet y envía la imagen a un codificador de imágenes y el texto a un codificador de texto. Luego utiliza una pérdida que acerca la codificación de la imagen y la codificación del texto cuando están en el mismo par; de lo contrario, la pérdida aumenta la distancia de las codificaciones. Esto es lo que CLIP te ofrece: la capacidad de comparar la similitud entre texto e imágenes. Esto permite que se utilice para la clasificación de disparo cero, como se muestra en la Figura 4. CLIP, por sí solo, no genera descripciones de texto a partir de imágenes.

El codificador de imágenes y el codificador de texto son independientes, lo que significa que no hay forma de que la modulación basada en tareas influya en la codificación de la imagen. Esto significa que el codificador de imágenes debe codificar todo lo que pueda ser potencialmente relevante para la tarea. Normalmente, la resolución de la imagen de entrada es pequeña, lo que ayuda a evitar que se disparen los requisitos de computación y memoria.

Figura 4: CLIP se puede utilizar para la clasificación de disparo cero. Se crea texto para cada una de las N clases, que luego se codifican en tokens. t1…*Tennesse*. Luego se codifica la imagen y se mide la similitud con las codificaciones de texto generadas. La codificación de texto más similar es la clase elegida. Figura reproducida con autorización de Radford et al. (2021).

Figura 5: Arquitectura LLaVA. Xv: imagen, Xq: instrucción/pregunta, Hv: tokens de imagen, Hq: tokens de instrucción, Xa: respuesta, generados un token a la vez. Imagen del autor, basada en la Figura 1 de Liu y cols. (2023).

Large Language and Vision Assistant (LLaVA) (Liu et al. 2023) es una arquitectura de lenguaje y visión de gran tamaño que se extiende y se basa en CLIP para agregar la capacidad de describir y responder preguntas sobre imágenes. Este tipo de arquitectura me interesa porque puede intentar tareas como las que se utilizan en Neurociencia y Psicología.

LLaVA toma el modelo de transformador de visión ViT-L/14 entrenado por CLIP para la codificación de imágenes (Figura 5). El primer artículo utiliza una única matriz de proyección lineal W para convertir las codificaciones en tokens. Los tokens calculados a partir de las imágenes Hᵥ y las instrucciones de texto Hq se proporcionan como entrada. Luego, LLaVA puede generar la respuesta de lenguaje Xₐ un token a la vez, agregando la respuesta como entrada para la siguiente iteración.

No entraré en detalles sobre cómo se entrena LLaVA, pero es interesante cómo usan ChatGPT para expandir el título (Xc) en la Figura 5 para formar instrucciones (Hq) y respuestas (usadas para entrenar Xₐ) sobre una imagen y el uso de información del cuadro delimitador.

En la versión 1.5 de LLaVA (Liu et al. 2024), algunas de las mejoras que realizaron incluyen:

La matriz de proyección lineal W se reemplaza por un perceptrón multicapa
La resolución de la imagen aumenta mediante el uso de un codificador de imágenes que toma imágenes de un tamaño de 336×336 píxeles y las divide en cuadrículas que se codifican por separado.

La atención impulsada por tareas en el cerebro puede asignar dinámicamente recursos al objeto, ubicación o características de interés, lo que permite el procesamiento de información que de otro modo se vería abrumada por el desorden u otros objetos. En LLaVA, el codificador de imágenes es independiente de las instrucciones de texto, por lo que para tener éxito debe asegurarse de que cualquier información potencialmente útil esté almacenada en los tokens de imagen (Hᵥ).

LLaVA y CLIP carecen de bidireccionalidad y recurrencia con estados internos, lo que limita su procesamiento. Esto es especialmente cierto para el procesamiento de imágenes, ya que el procesamiento de imágenes se realiza independientemente de las instrucciones del texto. La mayoría de las redes neuronales convolucionales también comparten estas limitaciones. Esto me lleva a mi conjetura:

Conjetura: la mayoría de las redes convolucionales, de transformadores de visión y de transformadores multimodales están restringidas a un procesamiento análogo al procesamiento visual preatentivo en el cerebro.

Esto no es tanto una crítica como una idea que puede ser informativa. El procesamiento anticipado puede hacer mucho y es rápido. Sin embargo, no es tan dinámico en cuanto a qué recursos se pueden utilizar, lo que puede provocar cuellos de botella de información en escenas desordenadas y no puede codificar suficiente información para tareas complejas sin una explosión del tamaño de las codificaciones. La creación de modelos que funcionen de forma anticipada es un paso importante debido a la dificultad de agregar recurrencia y procesamiento bidireccional.

Algunas redes no se limitan a redes de alimentación anticipada con atención previa, pero actualmente, la mayoría de las arquitecturas van por detrás de las de los transformadores. Estos incluyen modelos de memoria a corto plazo (LSTM) y, más recientemente, la arquitectura Mamba, que tiene varias ventajas sobre los transformadores (Gu y Dao 2024). LSTM extendidos (Beck et al.2024, Alkin et al. 2024) se han propuesto recientemente, que ayudan a cerrar la brecha entre los transformadores y los LSTM. Los modelos de difusión también tienen un tipo limitado de recurrencia que utiliza la imagen como estado entre iteraciones.

B. Alkin, M. Beck, K. Pöppel, S. Hochreiter y J. Brandstetter, Vision-LSTM: xLSTM como columna vertebral de visión genérica (2024), http://arxiv.org/abs/2406.04303.

M. Beck, K. Pöppel, M. Spanring, A. Auer, O. Prudnikova, M. Kopp, G. Klambauer, J. Brandstetter y S. Hochreiter, xLSTM: Memoria extendida a largo plazo (2024), http://arxiv.org/abs/2405.04517

A. Gu y T. Dao. Mamba: modelado de secuencias de tiempo lineal con espacios de estados selectivos (2024) http://arxiv.org/abs/2312.00752

H. Liu, C. Li, Y. Li y YJ Lee “Líneas de base mejoradas con ajuste de instrucciones visuales (2024) Proc. de IEEE/CVF CVPR.

H. Liu, C. Li, Q. Wu y YJ Lee, Ajuste de instrucciones visuales (2023), https://doi.org/10.48550/arXiv.2304.08485

J. Poort, F. Raudies, A. Wannig, VAF Lamme, H. Neumann y PR Roelfsema. El papel de la atención en la segregación figura-fondo en las áreas V1 y V4 de la corteza visual (2012) Neurona

A. Radford, JW Kim, C. Hallacy, A. Ramesh, G. Goh, S. Agarwal, G. Sastry, A. Askell, P. Mishkin y J. Clark. Aprendizaje de modelos visuales transferibles a partir de la supervisión del lenguaje natural (2021) ICML

R. VanRullen, El poder del barrido feed-forward (2007) Avances en psicología cognitiva

A. Vaswani, N. Shazeer, N. Parmar, J. Uszkoreit, L. Jones, AN Gomez, Ł. Kaiser y I. Polosukhin, Atención es todo lo que necesitas (2017) NeurIP

J.R. Williford y R. von der Heydt, Codificación de propiedad fronteriza (2013) Scholarpedia

H. Zhou, HS Friedman y R. von der Heydt. “Codificación de propiedad de fronteras en Monkey Visual Cortex (2000) La Revista de Neurociencia

CLIP, LLaVA y el cerebro. Lo que la neurociencia puede enseñarnos sobre… | por Jonathan R. Williford, PhD | junio de 2024

ByEquipo de 7 minutos

El aprendizaje profundo y el cerebro

Información sobre transformadores multimodales desde la neurociencia

By Equipo de 7 minutos

Related Post

Una implementación de codificación en Phi-4-Mini de Microsoft para la herramienta de razonamiento de inferencia cuantificada utiliza el ajuste fino RAG y LoRA

Una implementación de codificación en Qwen 3.6-35B-A3B que cubre inferencia multimodal, control de pensamiento, llamada de herramientas, enrutamiento MoE, RAG y persistencia de sesión

Moonshot AI lanza Kimi K2.6 con codificación de horizonte largo, enjambre de agentes ampliado a 300 subagentes y 4000 pasos coordinados

You missed

Brooks Rosser de American Idol y Rae Boyd están saliendo

Los astronautas fotografían la lluvia de meteoritos Lyrid desde la ISS foto del día del 21 de abril de 2026

Renuncia Lori Chávez-DeRemer, secretaria de Trabajo prosindical de Trump

Por qué las tasas de mortalidad son alarmantes y qué significan para su supervivencia