Este documento fue aceptado en CVPR 2025. En resumen, Casco es como una solución elegante para el contexto a nivel de objeto en la segmentación del mundo abierto. Superan a varios enfoques sin capacitación e incluso supera algunos métodos que dependen de la capacitación adicional. Las ganancias son especialmente notables en configuraciones desafiantes donde los objetos tienen subpartes intrincadas o clases tienen una alta similitud visual. Los resultados muestran que CASS predice constantemente las etiquetas correctas hasta el nivel de píxeles, subrayando su conciencia refinada a nivel de objeto.
¿Quieres saber cómo lo hicieron? Lea a continuación … El enlace del código está disponible al final.
Gráficos espectrales de destilación para el contexto a nivel de objeto: un salto novedoso en la segmentación semántica de vocabulario abierto sin entrenamiento
La segmentación semántica de vocabulario abierto (OVSS) está sacudiendo el paisaje de la visión por computadora al permitir que los modelos segmentaran objetos basados en cualquier Solicitud definida por el usuario, sin estar atado a un conjunto fijo de categorías. Imagine decirle a una IA que elija cada “aguja espacial” en un paisaje urbano o que detecte y segmine un objeto oscuro que acaba de acuñar. Las tuberías de segmentación tradicionales, típicamente restringidas a un conjunto finito de clases de entrenamiento, no pueden manejar tales solicitudes sin ficha adicional o reentrenamiento. Ingresar Cass (segmentación semántica consciente del contexto)un enfoque nuevo y audaz que aprovecha los poderosos modelos de gran capacitación a gran escala para lograr la segmentación de alta fidelidad y consciente de objetos sin entrenamiento adicional.
El surgimiento de OVS sin entrenamiento
Los enfoques supervisados convencionales para la segmentación semántica requieren extensos conjuntos de datos etiquetados. Mientras sobresalen en clases conocidas, a menudo luchan o se sobrejuctos cuando se enfrentan a nuevas clases no vistas durante el entrenamiento. Por el contrario, los métodos OVSS sin entrenamiento, a menudo impulsados por modelos en idioma de visión a gran escala como clip, pueden segmentar basados en nuevas indicaciones textuales de manera cero. Esto se alinea naturalmente con la flexibilidad exigida por las aplicaciones del mundo real, donde no es práctico o extremadamente costoso anticipar cada objeto nuevo que pueda aparecer. Y porque son sin entrenamientoestos métodos no requieren más anotaciones o recopilación de datos cada vez que cambia el caso de uso … hacer que esto sea muy escalable para las soluciones de nivel de producción.
A pesar de estas fortalezas, los métodos existentes sin capacitación enfrentan un obstáculo fundamental: la coherencia a nivel de objeto. A menudo clavan la amplia alineación entre los parches de imagen y las indicaciones de texto (por ejemplo, “automóvil” o “perro”) pero no logran unificar todo el objeto, como agrupar las ruedas, el techo y las ventanas de un camión debajo de una sola máscara coherente. Sin una forma explícita de codificar las interacciones a nivel de objeto, los detalles cruciales terminan fragmentados, lo que limita la calidad general de segmentación.
Cass: inyectar contexto a nivel de objeto para segmentación coherente
Para abordar este déficit, los autores de la Universidad de Yonsei y UC Merced presentan a Cass, un sistema que destila el conocimiento rico a nivel de objetos de Vision Foundation Models (VFMS) y lo alinea con los incrustaciones de texto de Clip.
Dos ideas básicas alimentan este enfoque:
- Destilación de contexto a nivel de objeto espectral
Si bien el clip se destaca en las indicaciones textuales coincidentes con las características de la imagen global, no captura el contexto centrado en el objeto y de grano fino. Por otro lado, VFMS como Dino hacer Aprenda las intrincadas relaciones a nivel de parche pero carece de alineación de texto directo.
Cass une estas fortalezas tratando tanto el clip como los mecanismos de atención del VFM como gráficos y pareo Su atención se dirige a través de la descomposición espectral. En otras palabras, cada cabeza de atención se examina a través de sus valores propios, que reflejan cómo los parches se correlacionan entre sí. Por emparejamiento complementario Las cabezas, aquellas que se centran en la estructura distinta, la costa transfiere efectivamente el contexto a nivel de objeto del VFM al clip.
Para evitar el ruido, los autores aplican aproximación de bajo rango en el gráfico de atención del VFM, seguido de escalado dinámico de valor propio. El resultado es una representación destilada que resalta los límites del objeto central mientras se filtra los detalles irrelevantes, lo que permite finalmente “ver” todas las partes de un camión (o cualquier objeto) como una entidad.
- Presencia de objetos antes para refinamiento semántico
OVSS significa que el usuario puede solicitar cualquier rápido, pero esto puede conducir a la confusión entre categorías semánticamente similares. Por ejemplo, las indicaciones como “Bus” versus “Truck” versus “RV” pueden causar confusiones parciales si todos son algo probables.
Cass aborda esto aprovechando la capacidad de clasificación de disparo cero de Clip. Calcula un presencia de objeto anteriorEstimando qué probable es que aparezca cada clase en la imagen en general. Luego, usa esto antes de dos maneras:
Refinación de incrustaciones de texto: agrupa las indicaciones semánticamente similares e identifica qué etiquetas son probablemente en la imagen, dirigiendo las incrustaciones de texto seleccionadas más cerca de la actual objetos.
Similitud del parche centrado en el objeto: finalmente, Cass fusiona los puntajes de similitud de texto de parche con estas probabilidades de presencia para obtener predicciones más nítidas y más precisas.
En conjunto, estas estrategias ofrecen una solución robusta para la verdadera segmentación de vocabulario abierto. No importa cuán nuevo o inusual sea el aviso, Cass captura eficientemente tanto la semántica global y Los detalles sutiles que agrupan las partes de un objeto.
Los resultados son impresionantes, ver a continuación, la columna derecha es Cass, puede ver claramente la segmentación del nivel de objeto … mucho mejor que el clip
Debajo del capó: cabezales de atención coincidentes a través del análisis espectral
Uno de los puntos más innovadores de Cass es cómo coincide con los cabezales de atención de clip y VFM. Cada cabeza de atención se comporta de manera diferente; Algunos podrían entrar en las señales de color/textura, mientras que otros se bloquean en la forma o la posición. Entonces, los autores realizan una descomposición de valor propio en cada mapa de atención para revelar su “firma” única.
- Se forma una matriz de costo comparando estas firmas utilizando la distancia de Wasserstein, una técnica que mide la distancia entre las distribuciones de una manera que captura la forma general.
- La matriz se alimenta al algoritmo de juego húngaro, que combina cabezas que tienen distribuciones estructurales contrastantes.
- Los cabezales de atención coincidentes del VFM son aproximados y escalados para enfatizar los límites de los objetos.
- Finalmente, estas cabezas refinadas son destilado En la atención del clip, aumentando su capacidad para tratar cada objeto como un todo unificado.
Cualitativamente, puede pensar en este proceso como inyección selectiva de coherencia a nivel de objeto: después de la fusión, el clip ahora “sabe” una rueda más un chasis más una ventana es igual a un camión.
Por qué es importante
- Generalización: Debido a que Cass no necesita capacitación adicional o Finetuning, generaliza mucho mejor a las imágenes fuera de dominio y clases imprevistas.
- Despliegue inmediato: Los sistemas industriales o robóticos se benefician de la adaptabilidad instantánea: no se necesita curación costosa del conjunto de datos para cada nuevo escenario.
- Eficiencia: Con menos partes móviles y sin anotación, la tubería es notablemente eficiente para el uso del mundo real.
Al final del día … para cualquier nivel de producción, el entrenamiento de la solución es clave para manejar los casos de uso de la cola larga.
Resultados empíricos
Cass sufre pruebas exhaustivas en ocho conjuntos de datos de referencia, incluidos Pascal VOC, Coco y ADE20K, que cubren colectivamente más de 150 categorías de objetos. Surgen dos métricas destacadas:
- Intersección media sobre la Unión (Miou): Cass supera a varios enfoques sin capacitación e incluso supera algunos métodos que dependen de la capacitación adicional. Las ganancias son especialmente notables en configuraciones desafiantes donde los objetos tienen subpartes intrincadas o clases tienen una alta similitud visual.
- Precisión de píxeles (PACC): Los resultados muestran que Cass predice constantemente las etiquetas correctas hasta el nivel de píxeles, lo que subraya su conciencia refinada a nivel de objeto.
Desbloqueo de la verdadera segmentación de vocabulario abierto
El lanzamiento de Cass marca un salto hacia adelante para OVS sin entrenamiento. Al destilar información espectral en el clip y al ajustar las indicaciones de texto con una presencia de objeto anterior, logra una segmentación altamente coherente que puede unificar las partes dispersas de un objeto, algo que muchos métodos anteriores lucharon por hacer. Ya sea desplegado en robótica, vehículos autónomos o más allá, esta capacidad de reconocer y segmentar cualquier Objeto El nombre de usuario es inmensamente poderoso y francamente requerido.
Verificar el Papel. Todo el crédito por esta investigación va a los investigadores de este proyecto. Además, siéntete libre de seguirnos Gorjeo Y no olvides unirte a nuestro Subreddit de 80k+ ml.
