El aprendizaje profundo ha logrado avances significativos en la inteligencia artificial, en particular en el procesamiento del lenguaje natural y la visión artificial. Sin embargo, incluso los sistemas más avanzados suelen fallar de maneras que los humanos no lo harían, lo que pone de relieve una brecha crítica entre la inteligencia artificial y la humana. Esta discrepancia ha reavivado los debates sobre si las redes neuronales poseen los componentes esenciales de la cognición humana. El desafío radica en desarrollar sistemas que muestren un comportamiento más parecido al humano, en particular en lo que respecta a la solidez y la generalización. A diferencia de los humanos, que pueden adaptarse a los cambios ambientales y generalizar en diversos entornos visuales, los modelos de IA a menudo necesitan ayuda con distribuciones de datos cambiantes entre los conjuntos de entrenamiento y de prueba. Esta falta de solidez en las representaciones visuales plantea desafíos importantes para las aplicaciones posteriores que requieren fuertes capacidades de generalización.
Investigadores de Google DeepMind, Machine Learning Group, Technische Universität Berlin, BIFOLD, Berlin Institute for the Foundations of Learning and Data, Max Planck Institute for Human Development, Anthropic, Departamento de Inteligencia Artificial, Universidad de Corea, Seúl, Max Planck Institute for Informatics proponen un marco único llamado Alineación para abordar la falta de alineación entre las representaciones visuales humanas y de máquina. Este enfoque tiene como objetivo simular conjuntos de datos de juicios de similitud similares a los humanos a gran escala para alinear los modelos de redes neuronales con la percepción humana. La metodología comienza utilizando una transformación afín para alinear las representaciones del modelo con los juicios semánticos humanos en tareas de triplete impar-uno-fuera. Este proceso incorpora medidas de incertidumbre de las respuestas humanas para mejorar la calibración del modelo. La versión alineada de un modelo de base de visión de última generación (VFM) sirve luego como sustituto para generar juicios de similitud similares a los humanos. Al agrupar las representaciones en categorías superordinadas significativas, los investigadores toman muestras de tripletes semánticamente significativos y obtienen respuestas impares del modelo sustituto, lo que da como resultado un conjunto de datos integral de juicios de triplete similares a los humanos llamado AligNet.
Los resultados demuestran mejoras significativas en la alineación de las representaciones de las máquinas con los juicios humanos en múltiples niveles de abstracción. Para la semántica de grano grueso global, la alineación suave mejoró sustancialmente el rendimiento del modelo, con precisiones que aumentaron del 36,09-57,38% al 65,70-68,56%, superando el puntaje de confiabilidad de humano a humano del 61,92%. En la semántica de grano fino local, la alineación mejoró moderadamente, con precisiones que aumentaron del 46,04-57,72% al 58,93-62,92%. Para los tripletes de límites de clase, el ajuste fino de AligNet logró una alineación notable, con precisiones que alcanzaron el 93,09-94,24%, superando el techo de ruido humano del 89,21%. La efectividad de la alineación varió entre los niveles de abstracción, y diferentes modelos mostraron fortalezas en diferentes áreas. En particular, el ajuste fino de AligNet se generalizó bien a otros conjuntos de datos de juicio de similitud humana, demostrando mejoras sustanciales en la alineación en varias tareas de similitud de objetos, incluidas las clasificaciones de similitud por pares en escala Likert y de arreglos múltiples.
La metodología AligNet comprende varios pasos clave para alinear las representaciones de las máquinas con la percepción visual humana. Inicialmente, utiliza el conjunto de datos de tripletes impares de THINGS para aprender una transformación afín en un espacio global de similitud de objetos humanos. Esta transformación se aplica a las representaciones de un modelo docente, creando una matriz de similitud para pares de objetos. El proceso incorpora medidas de incertidumbre sobre las respuestas humanas utilizando un método de inferencia bayesiana aproximada, reemplazando la alineación dura con una alineación suave.
La función objetivo de aprender la transformación de destilación de incertidumbre es combinar la alineación suave con la regularización para preservar la estructura de similitud local. Las representaciones transformadas se agrupan luego en categorías superordinadas mediante la agrupación de k-medias. Estos grupos guían la generación de tripletes a partir de imágenes distintas de ImageNet, con elecciones de elementos extraños determinados por el modelo maestro sustituto.
Por último, una función objetivo robusta basada en la divergencia de Kullback-Leibler facilita la destilación de la estructura de similitud por pares del profesor en una red de estudiantes. Este objetivo de AligNet se combina con la regularización para preservar el espacio de representación entrenado previamente, lo que da como resultado un modelo de estudiante ajustado que se alinea mejor con las representaciones visuales humanas en múltiples niveles de abstracción.
Este estudio aborda una deficiencia crítica en los modelos de base de la visión: su incapacidad para representar adecuadamente la estructura conceptual multinivel del conocimiento semántico humano. Al desarrollar el marco AligNet, que alinea los modelos de aprendizaje profundo con los juicios de similitud humanos, la investigación demuestra mejoras significativas en el rendimiento del modelo en varias tareas cognitivas y de aprendizaje automático. Los hallazgos contribuyen al debate en curso sobre la capacidad de las redes neuronales para capturar la inteligencia similar a la humana, particularmente en la comprensión relacional y la organización jerárquica del conocimiento. En última instancia, este trabajo ilustra cómo la alineación representacional puede mejorar la generalización y la solidez del modelo, cerrando la brecha entre la percepción visual artificial y humana.
Echa un vistazo a la PapelTodo el crédito por esta investigación corresponde a los investigadores de este proyecto. Además, no olvides seguirnos en Gorjeo y únete a nuestro Canal de Telegram y LinkedIn Gr¡Arriba!. Si te gusta nuestro trabajo, te encantará nuestro hoja informativa..
No olvides unirte a nuestro Subreddit con más de 50 000 millones de usuarios
Asjad es consultor en prácticas en Marktechpost. Está cursando la licenciatura en ingeniería mecánica en el Instituto Indio de Tecnología de Kharagpur. Asjad es un entusiasta del aprendizaje automático y del aprendizaje profundo que siempre está investigando las aplicaciones del aprendizaje automático en el ámbito de la atención médica.