SAE arquetípico: aprendizaje de diccionario adaptativo y estable para la extracción de conceptos en modelos de visión grande

Las redes neuronales artificiales (ANN) han revolucionado la visión por computadora con un gran rendimiento, pero su naturaleza de “caja negra” crea desafíos significativos en los dominios que requieren transparencia, responsabilidad y cumplimiento regulatorio. La opacidad de estos sistemas obstaculiza su adopción en aplicaciones críticas donde la comprensión de los procesos de toma de decisiones es esencial. Los científicos tienen curiosidad por comprender los mecanismos internos de estos modelos y desean utilizar estas ideas para la depuración efectiva, la mejora del modelo y explorar posibles paralelos con la neurociencia. Estos factores han catalizado el rápido desarrollo de la inteligencia artificial explicable (XAI) como un campo dedicado. Se centra en la interpretabilidad de ANN, uniendo la brecha entre la inteligencia de la máquina y la comprensión humana.

Los métodos basados ​​en conceptos son marcos poderosos entre los enfoques de XAI para revelar conceptos visuales inteligibles dentro de los complejos patrones de activación de Anns. Investigaciones recientes caracterizan la extracción del concepto como problemas de aprendizaje del diccionario, donde las activaciones se asignan a un “espacio conceptual” de dimensiones más altas que es más interpretable. Las técnicas como la factorización de la matriz no negativa (NMF) y los medios K se utilizan para reconstruir con precisión las activaciones originales, mientras que los autoencoders escasos (SAE) han ganado recientemente prominencia como alternativas poderosas. Los SAE logran un equilibrio impresionante entre la escasez y la calidad de la reconstrucción, pero sufren inestabilidad. La capacitación de SAE idénticos en los mismos datos puede producir diferentes diccionarios conceptuales, limitando su confiabilidad e interpretabilidad para un análisis significativo.

Investigadores de la Universidad de Harvard, la Universidad de York, CNRS y Google Deepmind han propuesto dos nuevas variantes de autoencoders escasos para abordar los problemas de inestabilidad: Archetypal-SAE (A-SAE) y su contraparte relajada (RA-SAE). Estos enfoques se basan en el análisis arquetípico para mejorar la estabilidad y la consistencia en la extracción de conceptos. El modelo A-SAE restringe cada átomo de diccionario para que reside estrictamente dentro del casco convexo de los datos de entrenamiento, que impone una restricción geométrica que mejora la estabilidad en las diferentes ejecuciones de entrenamiento. El RA-SAE extiende este marco aún más al incorporar un pequeño término de relajación, permitiendo ligeras desviaciones del casco convexo para mejorar la flexibilidad de modelado mientras mantiene la estabilidad.

Los investigadores evalúan su enfoque utilizando cinco modelos de visión: Dinov2, Siglip, Vit, ConvNext y ResNet50, todos obtenidos de la Biblioteca TIMM. Construyen diccionarios sobrecargadores con tamaños cinco veces la dimensión de características (por ejemplo, 768 × 5 para Dinov2 y 2048 × 5 para ConvNext), proporcionando suficiente capacidad para la representación conceptual. Los modelos se someten a capacitación en todo el conjunto de datos de Imagenet, procesando aproximadamente 1,28 millones de imágenes que generan más de 60 millones de tokens por época para Convnext y más de 250 millones de tokens para Dinov2, continuando por 50 épocas. Además, RA-SAE se basa en una arquitectura Topk SAE para mantener niveles de escasez consistentes entre los experimentos. El cálculo de una matriz implica la agrupación de K-means de todo el conjunto de datos en 32,000 centroides.

Los resultados demuestran diferencias de rendimiento significativas entre los enfoques tradicionales y los métodos propuestos. Los algoritmos de aprendizaje de diccionario clásico y los SAE estándar muestran un rendimiento comparable pero luchan por recuperar los verdaderos factores generativos en los conjuntos de datos probados con precisión. En contraste, RA-SAE alcanza una mayor precisión en la recuperación de clases de objetos subyacentes en todos los conjuntos de datos sintéticos utilizados en la evaluación. En resultados cualitativos, RA-SAE descubre conceptos significativos, incluidas las características basadas en sombras vinculadas al razonamiento de profundidad, conceptos dependientes del contexto como “barbero” y capacidades de detección de borde de grano fino en los pétalos de flores. Además, aprende distinciones más estructuradas dentro de la clase que Topk-Saes, separando características como orejas de conejo, caras y patas en conceptos distintos en lugar de mezclarlos.

En conclusión, los investigadores han introducido dos variantes de autoencoders escasos: A-SAE y su contraparte relajada RA-SAE. A-SAE limita los átomos de diccionario al casco convexo de los datos de entrenamiento y mejora la estabilidad al tiempo que preserva el poder expresivo. Luego, RA-SAE equilibra efectivamente la calidad de la reconstrucción con un descubrimiento de concepto significativo en modelos de visión a gran escala. Para evaluar estos enfoques, el equipo desarrolló métricas y puntos de referencia novedosos inspirados en la teoría de identificabilidad, proporcionando un marco sistemático para medir la calidad del diccionario y el desenredado del concepto. Más allá de la visión por computadora, A-SAE establece una base para un descubrimiento de conceptos más confiable en modalidades más amplias, incluidas las LLM y otros dominios de datos estructurados.


Verificar el Papel. Todo el crédito por esta investigación va a los investigadores de este proyecto. Además, siéntete libre de seguirnos Gorjeo Y no olvides unirte a nuestro Subreddit de 80k+ ml.


Sajjad Ansari es un pregrado de último año de IIT Kharagpur. Como entusiasta de la tecnología, profundiza en las aplicaciones prácticas de la IA con un enfoque en comprender el impacto de las tecnologías de IA y sus implicaciones del mundo real. Su objetivo es articular conceptos complejos de IA de manera clara y accesible.