Screenshot 2024 04 02 At 1.47.16 Pm.png

Desde una edad temprana, los humanos exhiben una increíble capacidad para recombinar sus conocimientos y habilidades de formas novedosas. Un niño puede combinar sin esfuerzo correr, saltar y lanzar para inventar nuevos juegos. Un matemático puede recombinar de manera flexible operaciones matemáticas básicas para resolver problemas complejos. Este talento para el razonamiento compositivo (construir nuevas soluciones remezclando bloques de construcción primitivos) ha demostrado ser un desafío formidable para la inteligencia artificial.

Sin embargo, es posible que un equipo multiinstitucional de investigadores haya descifrado el código. En un estudio innovador que se presentará en ICLR 2024, científicos de ETH Zurich, Google e Imperial College London revelan nuevos conocimientos teóricos y empíricos sobre cómo las arquitecturas de redes neuronales modulares llamadas hiperredes pueden descubrir y aprovechar la estructura compositiva oculta que subyace a tareas complejas.

Los modelos actuales de IA de última generación, como el GPT-3, son extraordinarios, pero también consumen muchísimos datos. Estos modelos requieren conjuntos de datos de entrenamiento masivos para dominar nuevas habilidades, ya que carecen de la capacidad de recombinar de manera flexible sus conocimientos para resolver problemas novedosos fuera de sus regímenes de entrenamiento. La composicionalidad, por otro lado, es una característica definitoria de la inteligencia humana que permite a nuestro cerebro construir rápidamente representaciones complejas a partir de componentes más simples, lo que permite la adquisición y generalización eficiente de nuevos conocimientos. Dotar a la IA de esta capacidad de razonamiento compositivo se considera un objetivo santo grial en este campo. Podría conducir a sistemas más flexibles y eficientes en el uso de datos que generalicen radicalmente sus habilidades.

Los investigadores plantean la hipótesis de que las hiperredes pueden ser la clave para desbloquear la IA compositiva. Las hiperredes son redes neuronales que generan los pesos de otra red neuronal a través de combinaciones de parámetros compositivos modulares. A diferencia de las arquitecturas “monolíticas” convencionales, las hiperredes pueden activar y combinar de manera flexible diferentes módulos de habilidades combinando linealmente parámetros en su espacio de peso.

Imagine cada módulo como un especialista centrado en una capacidad particular. Las hiperredes actúan como arquitectos modulares, capaces de reunir equipos personalizados de estos expertos para abordar cualquier nuevo desafío que surja. La pregunta central es: ¿Bajo qué condiciones pueden las hiperredes recuperar los módulos expertos de verdad básica y sus reglas de composición simplemente observando los resultados de sus esfuerzos colectivos?

A través de un análisis teórico aprovechando el marco profesor-alumno, los investigadores obtuvieron nuevos conocimientos sorprendentes. Demostraron que, bajo ciertas condiciones en los datos de entrenamiento, un estudiante de hiperred puede identificar los módulos de verdad fundamental y sus composiciones (hasta una transformación lineal) de una hiperred modular de docentes. Las condiciones cruciales son:

  • Apoyo compositivo: Todos los módulos deben observarse al menos una vez durante la formación, incluso cuando se combinen con otros.
  • Soporte conectado: ningún módulo puede existir de forma aislada; cada módulo debe coexistir con otros en las tareas de capacitación.
  • Sin sobreparametrización: La capacidad del alumno no puede superar ampliamente la del profesor, o puede simplemente memorizar cada tarea de formación de forma independiente.

Sorprendentemente, a pesar de la cantidad exponencial de combinaciones de módulos posibles, los investigadores demostraron que ajustar solo un número lineal de ejemplos del profesor es suficiente para que el estudiante logre una generalización compositiva a cualquier combinación de módulos invisible.

Los investigadores fueron más allá de la teoría y llevaron a cabo una serie de ingeniosos experimentos de metaaprendizaje que demostraron la capacidad de las hiperredes para descubrir estructuras compositivas en diversos entornos, desde composiciones modulares sintéticas hasta escenarios que involucran preferencias modulares y objetivos compositivos.

En un experimento, enfrentaron hiperredes con arquitecturas convencionales como ANIL y MAML en un mundo de ciencia ficción donde un agente tenía que navegar por laberintos, realizar acciones sobre objetos coloreados y maximizar sus “preferencias” modulares. Mientras que ANIL y MAML fallaron al extrapolar a combinaciones de preferencias invisibles, las hiperredes generalizaron su comportamiento de manera flexible con alta precisión.

Sorprendentemente, los investigadores observaron casos en los que las hiperredes podían decodificar linealmente las activaciones del módulo de verdad fundamental a partir de sus representaciones aprendidas, lo que demuestra su capacidad para extraer la estructura modular subyacente de demostraciones de tareas escasas.

Si bien estos resultados son prometedores, persisten desafíos. La parametrización excesiva fue un obstáculo clave: demasiados módulos redundantes hacían que las hiperredes memorizaran tareas individuales de manera sencilla. El razonamiento compositivo escalable probablemente requerirá arquitecturas cuidadosamente equilibradas. Este trabajo ha expuesto el velo que oscurece el camino hacia la inteligencia artificial compositiva. Con conocimientos más profundos sobre los sesgos inductivos, la dinámica de aprendizaje y los principios de diseño arquitectónico, los investigadores pueden allanar el camino hacia sistemas de IA que adquieran conocimientos más parecidos a los humanos, recombinando eficientemente habilidades para generalizar radicalmente sus capacidades.


Revisar la Papel. Todo el crédito por esta investigación va a los investigadores de este proyecto. Además, no olvides seguirnos en Gorjeo. Únete a nuestro Canal de telegramas, Canal de discordiay LinkedIn Grarriba.

Si te gusta nuestro trabajo, te encantará nuestro Boletin informativo..

No olvides unirte a nuestro SubReddit de 39k+ ML


Vibhanshu Patidar es pasante de consultoría en MarktechPost. Actualmente cursa una licenciatura en el Instituto Indio de Tecnología (IIT) Kanpur. Es un entusiasta de la robótica y el aprendizaje automático con una habilidad especial para desentrañar las complejidades de los algoritmos que unen la teoría y las aplicaciones prácticas.


Por automata