Screenshot 2024 05 28 At 2.44.16 Pm.png

La investigación sobre aprendizaje automático tiene como objetivo aprender representaciones que permitan el desempeño efectivo de tareas posteriores. Un subcampo en crecimiento busca interpretar los roles de estas representaciones en comportamientos modelo o modificarlos para mejorar la alineación, la interpretabilidad o la generalización. De manera similar, la neurociencia examina las representaciones neuronales y sus correlaciones de comportamiento. Ambos campos se centran en comprender o mejorar los cálculos del sistema, los patrones de comportamiento abstractos en las tareas y sus implementaciones. La relación entre representación y computación es compleja y necesita ser más sencilla.

Las redes profundas altamente parametrizadas a menudo se generalizan bien a pesar de su capacidad de memorización, lo que sugiere un sesgo inductivo implícito hacia la simplicidad en sus arquitecturas y dinámicas de aprendizaje basadas en gradientes. Las redes orientadas hacia funciones más simples facilitan el aprendizaje de características más simples, lo que puede afectar las representaciones internas incluso para características complejas. Los sesgos de representación favorecen características simples y comunes influenciadas por factores como la prevalencia de características y la posición de salida en los transformadores. El aprendizaje abreviado y la investigación sobre representaciones desenredadas resaltan cómo estos sesgos afectan el comportamiento y la generalización de la red.

En este trabajo, los investigadores de DeepMind investigan las disociaciones entre representación y computación mediante la creación de conjuntos de datos que coinciden con las funciones computacionales de las características mientras manipulan sus propiedades. Se entrenan varias arquitecturas de aprendizaje profundo para calcular múltiples características abstractas a partir de entradas. Los resultados muestran sesgos sistemáticos en la representación de características basados ​​en propiedades como la complejidad de las características, el orden de aprendizaje y la distribución de las características. Las características más simples o aprendidas anteriormente están representadas con más fuerza que las complejas o aprendidas más tarde. Estos sesgos están influenciados por arquitecturas, optimizadores y regímenes de entrenamiento, como los transformadores que favorecen las características decodificadas anteriormente en la secuencia de salida.

Su enfoque implica entrenar redes para clasificar múltiples características, ya sea a través de unidades de salida separadas (por ejemplo, MLP) o como una secuencia (por ejemplo, Transformer). Los conjuntos de datos se construyen para garantizar la independencia estadística entre las características, y los modelos logran una alta precisión (>95 %) en conjuntos de prueba disponibles, lo que confirma el cálculo correcto de las características. El estudio investiga cómo propiedades como la complejidad de las características, la prevalencia y la posición en la secuencia de salida afectan la representación de las características. Se crean familias de conjuntos de datos de entrenamiento para manipular sistemáticamente estas propiedades, con los correspondientes conjuntos de datos de validación y prueba que garantizan la generalización esperada.

El entrenamiento de varias arquitecturas de aprendizaje profundo para calcular múltiples características abstractas revela sesgos sistemáticos en la representación de características. Estos sesgos dependen de propiedades extrañas como la complejidad de las características, el orden de aprendizaje y la distribución de las características. Las características más simples o aprendidas anteriormente se representan con más fuerza que las complejas o aprendidas más tarde, incluso si todas se aprenden igualmente bien. Las arquitecturas, los optimizadores y los regímenes de entrenamiento, como los transformadores, también influyen en estos sesgos. Estos hallazgos caracterizan los sesgos inductivos del aprendizaje de representaciones basado en gradientes y resaltan los desafíos para desenredar los sesgos extraños de los aspectos computacionalmente importantes para la interpretabilidad y la comparación con las representaciones cerebrales.

En este trabajo, los investigadores entrenaron modelos de aprendizaje profundo para calcular múltiples características de entrada, revelando sesgos sustanciales en sus representaciones. Estos sesgos dependen de propiedades de las características como la complejidad, el orden de aprendizaje, la prevalencia del conjunto de datos y la posición de la secuencia de salida. Los sesgos representacionales pueden estar relacionados con sesgos inductivos implícitos en el aprendizaje profundo. En la práctica, estos sesgos plantean desafíos para interpretar las representaciones aprendidas y compararlas entre diferentes sistemas en el aprendizaje automático, la ciencia cognitiva y la neurociencia.


Revisar la Papel. Todo el crédito por esta investigación va a los investigadores de este proyecto. Además, no olvides seguirnos en Gorjeo. Únete a nuestro Canal de telegramas, Canal de discordiay LinkedIn Grarriba.

Si te gusta nuestro trabajo, te encantará nuestro Boletin informativo..

No olvides unirte a nuestro SubReddit de 43k+ ML | Además, consulte nuestro Plataforma de eventos de IA


Asjad es consultor interno en Marktechpost. Está cursando B.Tech en ingeniería mecánica en el Instituto Indio de Tecnología, Kharagpur. Asjad es un entusiasta del aprendizaje automático y el aprendizaje profundo que siempre está investigando las aplicaciones del aprendizaje automático en la atención médica.