SAE arquetípico: aprendizaje de diccionario adaptativo y estable para la extracción de conceptos en modelos de visión grande

Las redes neuronales artificiales (ANN) han revolucionado la visión por computadora con un gran rendimiento, pero su naturaleza de “caja negra” crea desafíos significativos en los dominios que requieren transparencia, responsabilidad y cumplimiento regulatorio. La opacidad de estos sistemas obstaculiza su adopción en aplicaciones críticas donde la comprensión de los procesos de toma de decisiones es esencial. Los científicos tienen curiosidad por comprender los mecanismos internos de estos modelos y desean utilizar estas ideas para la depuración efectiva, la mejora del modelo y explorar posibles paralelos con la neurociencia. Estos factores han catalizado el rápido desarrollo de la inteligencia artificial explicable (XAI) como un campo dedicado. Se centra en la interpretabilidad de ANN, uniendo la brecha entre la inteligencia de la máquina y la comprensión humana.

Los métodos basados en conceptos son marcos poderosos entre los enfoques de XAI para revelar conceptos visuales inteligibles dentro de los complejos patrones de activación de Anns. Investigaciones recientes caracterizan la extracción del concepto como problemas de aprendizaje del diccionario, donde las activaciones se asignan a un “espacio conceptual” de dimensiones más altas que es más interpretable. Las técnicas como la factorización de la matriz no negativa (NMF) y los medios K se utilizan para reconstruir con precisión las activaciones originales, mientras que los autoencoders escasos (SAE) han ganado recientemente prominencia como alternativas poderosas. Los SAE logran un equilibrio impresionante entre la escasez y la calidad de la reconstrucción, pero sufren inestabilidad. La capacitación de SAE idénticos en los mismos datos puede producir diferentes diccionarios conceptuales, limitando su confiabilidad e interpretabilidad para un análisis significativo.

Investigadores de la Universidad de Harvard, la Universidad de York, CNRS y Google Deepmind han propuesto dos nuevas variantes de autoencoders escasos para abordar los problemas de inestabilidad: Archetypal-SAE (A-SAE) y su contraparte relajada (RA-SAE). Estos enfoques se basan en el análisis arquetípico para mejorar la estabilidad y la consistencia en la extracción de conceptos. El modelo A-SAE restringe cada átomo de diccionario para que reside estrictamente dentro del casco convexo de los datos de entrenamiento, que impone una restricción geométrica que mejora la estabilidad en las diferentes ejecuciones de entrenamiento. El RA-SAE extiende este marco aún más al incorporar un pequeño término de relajación, permitiendo ligeras desviaciones del casco convexo para mejorar la flexibilidad de modelado mientras mantiene la estabilidad.

Los investigadores evalúan su enfoque utilizando cinco modelos de visión: Dinov2, Siglip, Vit, ConvNext y ResNet50, todos obtenidos de la Biblioteca TIMM. Construyen diccionarios sobrecargadores con tamaños cinco veces la dimensión de características (por ejemplo, 768 × 5 para Dinov2 y 2048 × 5 para ConvNext), proporcionando suficiente capacidad para la representación conceptual. Los modelos se someten a capacitación en todo el conjunto de datos de Imagenet, procesando aproximadamente 1,28 millones de imágenes que generan más de 60 millones de tokens por época para Convnext y más de 250 millones de tokens para Dinov2, continuando por 50 épocas. Además, RA-SAE se basa en una arquitectura Topk SAE para mantener niveles de escasez consistentes entre los experimentos. El cálculo de una matriz implica la agrupación de K-means de todo el conjunto de datos en 32,000 centroides.

Los resultados demuestran diferencias de rendimiento significativas entre los enfoques tradicionales y los métodos propuestos. Los algoritmos de aprendizaje de diccionario clásico y los SAE estándar muestran un rendimiento comparable pero luchan por recuperar los verdaderos factores generativos en los conjuntos de datos probados con precisión. En contraste, RA-SAE alcanza una mayor precisión en la recuperación de clases de objetos subyacentes en todos los conjuntos de datos sintéticos utilizados en la evaluación. En resultados cualitativos, RA-SAE descubre conceptos significativos, incluidas las características basadas en sombras vinculadas al razonamiento de profundidad, conceptos dependientes del contexto como “barbero” y capacidades de detección de borde de grano fino en los pétalos de flores. Además, aprende distinciones más estructuradas dentro de la clase que Topk-Saes, separando características como orejas de conejo, caras y patas en conceptos distintos en lugar de mezclarlos.

En conclusión, los investigadores han introducido dos variantes de autoencoders escasos: A-SAE y su contraparte relajada RA-SAE. A-SAE limita los átomos de diccionario al casco convexo de los datos de entrenamiento y mejora la estabilidad al tiempo que preserva el poder expresivo. Luego, RA-SAE equilibra efectivamente la calidad de la reconstrucción con un descubrimiento de concepto significativo en modelos de visión a gran escala. Para evaluar estos enfoques, el equipo desarrolló métricas y puntos de referencia novedosos inspirados en la teoría de identificabilidad, proporcionando un marco sistemático para medir la calidad del diccionario y el desenredado del concepto. Más allá de la visión por computadora, A-SAE establece una base para un descubrimiento de conceptos más confiable en modalidades más amplias, incluidas las LLM y otros dominios de datos estructurados.

Verificar el Papel. Todo el crédito por esta investigación va a los investigadores de este proyecto. Además, siéntete libre de seguirnos Gorjeo Y no olvides unirte a nuestro Subreddit de 80k+ ml.

Sajjad Ansari es un pregrado de último año de IIT Kharagpur. Como entusiasta de la tecnología, profundiza en las aplicaciones prácticas de la IA con un enfoque en comprender el impacto de las tecnologías de IA y sus implicaciones del mundo real. Su objetivo es articular conceptos complejos de IA de manera clara y accesible.

SAE arquetípico: aprendizaje de diccionario adaptativo y estable para la extracción de conceptos en modelos de visión grande

ByEquipo de 7 minutos

By Equipo de 7 minutos

Related Post

Las 19 principales herramientas de AI Red Teaming (2026): proteja sus modelos de aprendizaje automático

Una guía de codificación para crear un sistema de procesamiento de tareas en segundo plano de nivel de producción utilizando Huey con SQLite, programación, reintentos, canalizaciones y control de concurrencia

Más allá de las indicaciones: uso de las habilidades de los agentes en ciencia de datos

You missed

Día de Taicang en Múnich: celebración de 18 años de innovación industrial chino-alemana

Explicación de las nuevas normas telefónicas de la UE a partir de 2027 « Euro Weekly News

Los mejores días de apertura de Akshay Kumar en la taquilla hindi después de la pandemia: Bhooth Bangla ocupa el sexto lugar, Sooryavanshi gobierna

¿Cuál es el planeta más extraño del sistema solar?