Incluso las redes que durante mucho tiempo se consideraron “incapaces de entrenar” pueden aprender eficazmente con un poco de ayuda. Investigadores del Laboratorio de Ciencias de la Computación e Inteligencia Artificial (CSAIL) del MIT han demostrado que un breve período de alineación entre redes neuronales, un método que llaman orientación, puede mejorar drásticamente el rendimiento de arquitecturas que antes se consideraban inadecuadas para las tareas modernas.
Sus hallazgos sugieren que muchas de las llamadas redes “ineficaces” pueden simplemente comenzar desde puntos de partida no ideales, y que la orientación a corto plazo puede ubicarlas en un lugar que facilite el aprendizaje para la red.
El método de orientación del equipo funciona alentando a una red objetivo a coincidir con las representaciones internas de una red guía durante el entrenamiento. A diferencia de los métodos tradicionales como la destilación de conocimientos, que se centran en imitar los resultados de un docente, la orientación transfiere conocimientos estructurales directamente de una red a otra. Esto significa que el objetivo aprende cómo la guía organiza la información dentro de cada capa, en lugar de simplemente copiar su comportamiento. Sorprendentemente, incluso las redes no capacitadas contienen sesgos arquitectónicos que pueden transferirse, mientras que los guías capacitados también transmiten patrones aprendidos.
“Encontramos estos resultados bastante sorprendentes”, dice Vighnesh Subramaniam ’23, MEng ’24, estudiante de doctorado del Departamento de Ingeniería Eléctrica y Ciencias de la Computación (EECS) del MIT e investigador de CSAIL, autor principal de un artículo que presenta estos hallazgos. “Es impresionante que podamos utilizar la similitud representacional para hacer que estas redes tradicionalmente ‘basura’ realmente funcionen”.
Ángel guía
Una pregunta central fue si la orientación debe continuar durante toda la capacitación o si su efecto principal es proporcionar una mejor inicialización. Para explorar esto, los investigadores realizaron un experimento con redes profundas totalmente conectadas (FCN). Antes de entrenar sobre el problema real, la red pasó algunos pasos practicando con otra red usando ruido aleatorio, como estirarse antes del ejercicio. Los resultados fueron sorprendentes: las redes que normalmente se sobreajustaban permanecían estables inmediatamente, lograban una menor pérdida de entrenamiento y evitaban la clásica degradación del rendimiento que se observa en algo llamado FCN estándar. Esta alineación actuó como un útil calentamiento para la red, demostrando que incluso una breve sesión de práctica puede tener beneficios duraderos sin necesidad de orientación constante.
El estudio también comparó la orientación con la destilación de conocimientos, un enfoque popular en el que una red de estudiantes intenta imitar los resultados de un profesor. Cuando la red de profesores no estaba capacitada, la destilación falló por completo, ya que los resultados no contenían ninguna señal significativa. La orientación, por el contrario, aún produjo importantes mejoras porque aprovecha las representaciones internas en lugar de las predicciones finales. Este resultado subraya una idea clave: las redes no capacitadas ya codifican valiosos sesgos arquitectónicos que pueden guiar a otras redes hacia un aprendizaje efectivo.
Más allá de los resultados experimentales, los hallazgos tienen amplias implicaciones para comprender la arquitectura de las redes neuronales. Los investigadores sugieren que el éxito (o el fracaso) a menudo depende menos de datos específicos de la tarea y más de la posición de la red en el espacio de parámetros. Al alinearse con una red de guías, es posible separar las contribuciones de los prejuicios arquitectónicos de las del conocimiento aprendido. Esto permite a los científicos identificar qué características del diseño de una red apoyan el aprendizaje efectivo y qué desafíos surgen simplemente de una inicialización deficiente.
La orientación también abre nuevas vías para estudiar las relaciones entre arquitecturas. Al medir la facilidad con la que una red puede guiar a otra, los investigadores pueden sondear las distancias entre diseños funcionales y reexaminar las teorías de optimización de redes neuronales. Dado que el método se basa en la similitud representacional, puede revelar estructuras previamente ocultas en el diseño de la red, ayudando a identificar qué componentes contribuyen más al aprendizaje y cuáles no.
Salvando a los desesperados
En última instancia, el trabajo muestra que las llamadas redes “no entrenables” no están inherentemente condenadas al fracaso. Con orientación, se pueden eliminar los modos de falla, evitar el sobreajuste y alinear arquitecturas que antes eran ineficaces con los estándares de rendimiento modernos. El equipo de CSAIL planea explorar qué elementos arquitectónicos son los más responsables de estas mejoras y cómo estos conocimientos pueden influir en el diseño de la red futura. Al revelar el potencial oculto incluso de las redes más obstinadas, la orientación proporciona una nueva y poderosa herramienta para comprender (y, con suerte, dar forma) a los fundamentos del aprendizaje automático.
“En general, se supone que las diferentes arquitecturas de redes neuronales tienen fortalezas y debilidades particulares”, dice Leyla Isik, profesora asistente de ciencia cognitiva de la Universidad Johns Hopkins, que no participó en la investigación. “Esta interesante investigación muestra que un tipo de red puede heredar las ventajas de otra arquitectura, sin perder sus capacidades originales. Sorprendentemente, los autores muestran que esto se puede hacer utilizando redes ‘guía’ pequeñas y no entrenadas. Este artículo presenta una forma novedosa y concreta de agregar diferentes sesgos inductivos en las redes neuronales, lo cual es fundamental para desarrollar una IA más eficiente y alineada con los humanos”.
Subramaniam escribió el artículo con colegas de CSAIL: el investigador científico Brian Cheung; Estudiante de doctorado David Mayo ’18, MEng ’19; El investigador asociado Colin Conwell; los investigadores principales Boris Katz, científico investigador principal de CSAIL, y Tomaso Poggio, profesor de ciencias cognitivas y del cerebro del MIT; y el ex investigador científico del CSAIL Andrei Barbu. Su trabajo fue apoyado, en parte, por el Centro para Cerebros, Mentes y Máquinas, la Fundación Nacional de Ciencias, la Iniciativa de Aplicaciones de Aprendizaje Automático CSAIL del MIT, el Laboratorio de IA Watson del MIT-IBM, la Agencia de Proyectos de Investigación Avanzada de Defensa de EE. UU. (DARPA), el Acelerador de Inteligencia Artificial del Departamento de la Fuerza Aérea de EE. UU. y la Oficina de Investigación Científica de la Fuerza Aérea de EE. UU.
Su trabajo fue presentado recientemente en la Conferencia y Taller sobre Sistemas de Procesamiento de Información Neural (NeurIPS).