EfficientViT-SAM: una nueva familia de modelos Anything de segmento acelerado

El panorama de la segmentación de imágenes se ha transformado profundamente con la introducción del Segment Anything Model (SAM), un paradigma conocido por su notable capacidad de segmentación de disparo cero. La implementación de SAM en una amplia gama de aplicaciones, desde realidad aumentada hasta anotación de datos, subraya su utilidad. Sin embargo, la intensidad computacional de SAM, particularmente la demanda de su codificador de imágenes de 2973 GMAC por imagen en la inferencia, ha limitado su aplicación en escenarios donde el tiempo es esencial.

La búsqueda de mejorar la eficiencia de SAM sin sacrificar su formidable precisión ha llevado al desarrollo de modelos como MobileSAM, EdgeSAM y EfficientSAM. Desafortunadamente, estos modelos, si bien redujeron los costos computacionales, experimentaron caídas en el rendimiento, como se muestra en la Figura 1. Para abordar este desafío, la introducción de EfficientViT-SAM utiliza la arquitectura EfficientViT para renovar el codificador de imágenes de SAM. Esta adaptación preserva la integridad de la arquitectura liviana del codificador de avisos y del decodificador de máscara de SAM, culminando en dos variantes: EfficientViT-SAM-L y EfficientViT-SAM-XL. Estos modelos ofrecen un equilibrio matizado entre velocidad operativa y precisión de segmentación, entrenados de un extremo a otro utilizando el conjunto de datos integral SA-1B.

EfficientViT es el núcleo de esta innovación, un modelo de transformador de visión optimizado para tareas de predicción densa de alta resolución. Su exclusivo módulo de atención lineal multiescala reemplaza la atención tradicional softmax con atención lineal ReLU, lo que reduce significativamente la complejidad computacional de cuadrática a lineal. Esta eficiencia se logra sin comprometer la capacidad del modelo para percibir y aprender globalmente características de múltiples escalas, una mejora fundamental que se detalla en la publicación original de EfficientViT.

La arquitectura de EfficientViT-SAM, en particular la variante EfficientViT-SAM-XL, está meticulosamente estructurada en cinco etapas. Las primeras etapas emplean bloques de convolución, mientras que las últimas etapas integran módulos EfficientViT, lo que culmina en un proceso de fusión de características que alimenta el cabezal SAM, como se ilustra en la Figura 2. Este diseño arquitectónico garantiza una fusión perfecta de características de múltiples escalas, mejorando la segmentación del modelo. capacidad.

El proceso de formación de EfficientViT-SAM es tan riguroso como innovador. Comenzando con la destilación de las incrustaciones de imágenes de SAM-ViT-H en EfficientViT, el modelo se somete a un entrenamiento de extremo a extremo en el conjunto de datos SA-1B. Esta fase incorpora una combinación de indicaciones de cuadros y puntos, empleando una combinación de pérdida focal y de dados para ajustar el rendimiento del modelo. La estrategia de formación, incluida la elección de las indicaciones y la función de pérdida, garantiza que EfficientViT-SAM no sólo aprenda de forma eficaz sino que también se adapte a diversos escenarios de segmentación.

La excelencia de EfficientViT-SAM no es meramente teórica; su desempeño empírico, particularmente en eficiencia en tiempo de ejecución y segmentación de disparo cero, es convincente. El modelo demuestra una aceleración de 17 a 69 veces en comparación con SAM, con una ventaja de rendimiento significativa a pesar de tener más parámetros que otros esfuerzos de aceleración, como se muestra en la Tabla 1.

La capacidad de segmentación de disparo cero de EfficientViT-SAM se evalúa mediante pruebas meticulosas en conjuntos de datos COCO y LVIS, empleando segmentación de instancias de punto único y de cuadro. El rendimiento del modelo, como se detalla en las Tablas 2 y 4, muestra su precisión de segmentación superior, particularmente cuando se utilizan indicaciones de puntos adicionales o cuadros delimitadores de verdad sobre el terreno.

Además, la segmentación en el punto de referencia Wild valida aún más la solidez de EfficientViT-SAM en la segmentación de disparo cero en diversos conjuntos de datos, con resultados de rendimiento resumidos en la Tabla 3. Los resultados cualitativos, representados en la Figura 3, resaltan la habilidad de EfficientViT-SAM para segmentar objetos de diferentes tamaños. tamaños, afirmando su versatilidad y superior capacidad de segmentación.

En conclusión, EfficientViT-SAM fusiona con éxito la velocidad de EfficientViT en la arquitectura SAM, lo que resulta en una ganancia sustancial de eficiencia sin sacrificar el rendimiento. Esto abre posibilidades para aplicaciones de mayor alcance de potentes modelos de segmentación, incluso en escenarios con recursos limitados. Para facilitar y fomentar una mayor investigación y desarrollo, los modelos EfficientViT-SAM previamente entrenados se han hecho de código abierto.


Revisar la Papel. Todo el crédito por esta investigación va a los investigadores de este proyecto. Además, no olvides seguirnos en Gorjeo y noticias de Google. Unirse nuestro SubReddit de 37k+ ML, 41k+ comunidad de Facebook, Canal de discordiay LinkedIn Grarriba.

Si te gusta nuestro trabajo, te encantará nuestro Boletin informativo..

No olvides unirte a nuestro Canal de telegramas


Vineet Kumar es pasante de consultoría en MarktechPost. Actualmente está cursando su licenciatura en el Instituto Indio de Tecnología (IIT), Kanpur. Es un entusiasta del aprendizaje automático. Le apasiona la investigación y los últimos avances en Deep Learning, Computer Vision y campos relacionados.