La educación liberadora consiste en actos de cognición, no de transferencias de información.
Paulo Freire
Las discusiones acaloradas sobre la inteligencia artificial son: ¿Qué aspectos del aprendizaje humano son capaces de capturar?
Muchos autores sugieren que los modelos de inteligencia artificial no poseen las mismas capacidades que los humanos, especialmente cuando se trata de plasticidad, flexibilidad y adaptación.
Uno de los aspectos que los modelos no capturan son varias relaciones causales sobre el mundo externo.
Este artículo analiza estos temas:
- El paralelismo entre las redes neuronales convolucionales (CNN) y la corteza visual humana
- Limitaciones de los CNN en la comprensión de las relaciones causales y el aprendizaje conceptos abstractos
- Cómo hacer que los CNN aprendan relaciones causales simples
¿Es lo mismo? ¿Es diferente?
Redes convolucionales (CNNS) [2] son redes neuronales de varias capas que toman imágenes como entrada y pueden usarse para múltiples tareas. Uno de los aspectos más fascinantes de los CNN es su inspiración en el corteza visual humana [1]:
- Procesamiento jerárquico. La corteza visual procesa imágenes jerárquicamente, donde las áreas visuales tempranas capturan características simples (como bordes, líneas y colores) y áreas más profundas capturan características más complejas, como formas, objetos y escenas. CNN, debido a su estructura en capas, captura bordes y texturas en las primeras capas, mientras que las capas de captura de partes o objetos enteros.
- Campos receptivos. Las neuronas en la corteza visual responden a los estímulos en una región local específica del campo visual (comúnmente llamado campos receptivos). A medida que profundizamos, los campos receptivos de las neuronas se amplían, lo que permite integrar más información espacial. Gracias a los pasos de agrupación, lo mismo sucede en CNNS.
- Intercambio de funciones. Aunque las neuronas biológicas no son idénticas, se reconocen características similares en diferentes partes del campo visual. En cnns, los diversos filtros Escanee toda la imagen, permitiendo que los patrones sean reconocidos independientemente de la ubicación.
- Invariancia espacial. Los humanos pueden reconocer objetos incluso cuando se mueven, escalan o giran. CNNS también posee esta propiedad.
Estas características han hecho que los CNN funcionen bien en las tareas visuales hasta el punto de rendimiento sobrehumano:
Russakovsky et al. [22] Recientemente informó que el rendimiento humano produce un error de 5.1% top-5 en el conjunto de datos de ImageNet. Este número es logrado por un anotador humano que está bien entrenado en las imágenes de validación para ser mejor consciente de la existencia de clases relevantes. […] Nuestro resultado (4.94%) excede el rendimiento a nivel humano informado. -fuente [3]
Aunque los CNN funcionan mejor que los humanos en varias tareas, todavía hay casos en los que fallan espectacularmente. Por ejemplo, en un estudio de 2024 [4]Los modelos AI no lograron generalizar la clasificación de imágenes. Los modelos de vanguardia funcionan mejor que los humanos para los objetos en poses verticales, pero fallan cuando los objetos están en poses inusuales.

En conclusión, nuestros resultados muestran que (1) los humanos aún son mucho más robustos que la mayoría de las redes para reconocer objetos en poses inusuales, (2) el tiempo es esencial para tal capacidad de surgir, e (3) los humanos limitados por el tiempo son diferentes a las redes neuronales profundas. -fuente [4]
En el estudio [4]señalan que los humanos necesitan tiempo para tener éxito en una tarea. Algunas tareas requieren no solo reconocimiento visual sino también cognición abstractaque requiere tiempo.
Las habilidades de generalización que hacen que los humanos sean capaces provienen de comprender las leyes que rigen las relaciones entre los objetos. Los humanos reconocen objetos extrapolando las reglas y encadenando estas reglas para adaptarse a nuevas situaciones. Una de las reglas más simples es la «relación de la misma diferencia»: la capacidad de definir si dos objetos son iguales o diferentes. Esta capacidad se desarrolla rápidamente durante la infancia y también está importante asociada con el desarrollo del lenguaje. [5-7]. Además, algunos animales como los patos y los chimpancés también lo tienen [8]. En contraste, aprender relaciones de la misma diferencia es muy difícil para redes neuronales [9-10].

Las redes convolucionales muestran dificultad para aprender esta relación. Del mismo modo, no aprenden otros tipos de relaciones causales que son simples para los humanos. Por lo tanto, muchos investigadores han concluido que CNNS Falta el sesgo inductivo necesario para poder aprender estas relaciones.
Estos resultados negativos no significan que las redes neuronales sean completamente incapaces de aprender relaciones de la misma diferencia. Los modelos de entrenamiento mucho más grandes y más largos pueden aprender esta relación. Por ejemplo, transformador de visión modelos previamente entrenados en Imagenet con aprendizaje contrastante puede mostrar esta habilidad [12].
¿Pueden los CNN aprender relaciones de la misma diferencia?
El hecho de que los modelos amplios puedan aprender este tipo de relaciones ha reavivado el interés en los CNN. La misma relación diferente se considera entre las operaciones lógicas básicas que componen las bases para cognición de orden superior y razonamiento. Mostrar que los CNN poco profundos pueden aprender este concepto nos permitirían experimentar con otras relaciones. Además, permitirá que los modelos aprendan cada vez más complejos relaciones causales. Este es un paso importante para avanzar en las capacidades de generalización de la IA.
El trabajo anterior sugiere que los CNN no tienen la arquitectura sesgo inductivo poder aprender relaciones visuales abstractas. Otros autores suponen que el problema está en el paradigma de capacitación. En general, el clásico descenso de gradiente se usa para aprender una sola tarea o un conjunto de tareas. Dada una tarea t o un conjunto de tareas t, se utiliza una función de pérdida l para optimizar los pesos φ que deberían minimizar la función l:

Esto puede verse como simplemente la suma de las pérdidas en diferentes tareas (si tenemos más de una tarea). En cambio, el Meta-learnicing del modelo y modelo (MAML) algoritmo [13] está diseñado para buscar un punto óptimo en el espacio de peso para un conjunto de tareas relacionadas. MAML busca encontrar un conjunto inicial de pesos θ que minimice el función de pérdida En todas las tareas, facilitando la adaptación rápida:

La diferencia puede parecer pequeña, pero conceptualmente, este enfoque está dirigido hacia la abstracción y generalización. Si hay múltiples tareas, la capacitación tradicional intenta optimizar pesas para diferentes tareas. MAML intenta identificar un conjunto de pesos óptimos para diferentes tareas, pero al mismo tiempo equidistante en el espacio de peso. Este punto de partida θ permite que el modelo se generalice de manera más efectiva en diferentes tareas.

Dado que ahora tenemos un método sesgado hacia la generalización y la abstracción, podemos probar si podemos hacer que los CNN aprendan la misma relación diferente.
En este estudio [11]compararon los CNN poco profundos entrenados con descenso de gradiente clásico y meta-learning en un conjunto de datos diseñado para este informe. El conjunto de datos consta de 10 tareas diferentes que evalúan la misma relación diferente.

Los autores [11] Compare CNNS de 2, 4 o 6 capas entrenadas de manera tradicional o con meta-aprendizaje, mostrando varios resultados interesantes:
- El rendimiento de los CNN tradicionales muestra un comportamiento similar a la adivinación aleatoria.
- El meta-aprendizaje mejora significativamente el rendimiento, lo que sugiere que el modelo puede aprender la misma relación diferente. Un CNN de 2 capas funciona poco mejor que el azar, pero al aumentar la profundidad de la red, el rendimiento mejora la precisión casi perfecta.

Uno de los resultados más intrigantes de [11] es que el modelo puede ser capacitado de una manera de dejar una vez (use 9 tareas y dejar una fuera) y mostrar capacidades de generalización fuera de distribución. Por lo tanto, el modelo ha aprendido el comportamiento de abstracción que apenas se ve en un modelo tan pequeño (6 capas).

Conclusiones
Aunque las redes convolucionales se inspiraron en cómo el cerebro humano procesa los estímulos visuales, no capturan algunas de sus capacidades básicas. Esto es especialmente cierto cuando se trata de relaciones causales o conceptos abstractos. Algunas de estas relaciones se pueden aprender de modelos grandes solo con un entrenamiento extenso. Esto ha llevado a la suposición de que pequeños CNN no pueden aprender estas relaciones debido a la falta de sesgo inductivo de arquitectura. En los últimos años, se han realizado esfuerzos para crear nuevas arquitecturas que podrían tener una ventaja en el aprendizaje de razonamiento relacional. Sin embargo, la mayoría de estas arquitecturas no aprenden este tipo de relaciones. Curiosamente, esto se puede superar mediante el uso de meta-aprendizaje.
La ventaja del meta-aprendizaje es incentivar un aprendizaje más abstracto. Presión del meta-aprendizaje hacia la generalización, tratando de optimizar todas las tareas al mismo tiempo. Para hacer esto, se favorece aprender características más abstractas (las características de bajo nivel, como los ángulos de una forma particular, no son útiles para la generalización y están desfavorecidas). El meta-aprendizaje permite que un CNN poco profundo aprenda un comportamiento abstracto que de otro modo requeriría muchos más parámetros y capacitación.
Los CNN poco profundos y la misma relación diferente son un modelo para funciones cognitivas más altas. El meta-aprendizaje y las diferentes formas de entrenamiento podrían ser útiles para mejorar las capacidades de razonamiento de los modelos.
¡Otra cosa!
Puedes buscar mis otros artículos en Medioy también puedes conectarte o comunicarse conmigo LinkedIn o en Bluesky. Controlar este repositorioque contiene Noticias de ML & AI actualizadas semanalmente, o aquí para otros tutoriales y aquí para revisiones de IA. Estoy abierto a colaboraciones y proyectos, Y puedes comunicarte conmigo en LinkedIn.
Referencia
Aquí está la lista de las referencias principales que consulté para escribir este artículo, solo se cita el primer nombre de un artículo.
- Lindsay, 2020, redes neuronales convolucionales como modelo del sistema visual: pasado, presente y futuro, enlace
- Li, 2020, una encuesta de redes neuronales convolucionales: análisis, aplicaciones y perspectivas, enlace
- Él, 2015, profundizando en los rectificadores: superar el rendimiento a nivel humano en la clasificación de Imagenet, enlace
- Ollikka, 2024, una comparación entre humanos y IA para reconocer objetos en poses inusuales, enlace
- Premark, 1981, The Codes of Man and Beasts, enlace
- Blote, 1999, Estrategias organizativas de niños pequeños sobre una tarea misma: un estudio microgenético y un estudio de capacitación, enlace
- Lupker, 2015, ¿hay cebado fonológicamente en la misma tarea diferente? Evidencia de bilingües japoneses-inglés, enlace
- Gentner, 2021, aprendizaje mismo y diferente Relaciones: comparaciones de especies cruzadas, enlace
- Kim, 2018, Not-So-Clevr: aprendiendo las mismas relaciones de relaciones diferentes, redes neuronales de alimentación, enlace
- Puebla, 2021, ¿pueden las redes neuronales convolucionales profundas respaldar el razonamiento relacional en la misma tarea diferente? enlace
- Gupta, 2025, las redes neuronales convolucionales pueden (meta) aprender la relación misma diferente, enlace
- Tartaglini, 2023, las redes neuronales profundas pueden aprender relaciones visuales de la misma diferencia generalizable, enlace
- Finn, 2017, Meta-Learning de modelo-Agnóstico para una adaptación rápida de redes profundas, enlace