Los detectores de objetos de vocabulario abierto responden consultas de texto con cuadros. En la teledetección, el rendimiento del disparo cero disminuye porque las clases son detalladas y el contexto visual es inusual. El equipo de investigación de Google propone FLAME, una estrategia de aprendizaje activo de un solo paso que se basa en un potente detector de vocabulario abierto y agrega un pequeño refinador que se puede entrenar casi en tiempo real en una CPU. El modelo base genera propuestas de recuperación elevadas, el refinador filtra los falsos positivos con algunas etiquetas específicas y se evita el ajuste fino completo del modelo. Informa precisión de última generación en DOTA y DIOR con 30 disparos y adaptación de escala minuciosa por etiqueta en una CPU.
Encuadre del problema
Los detectores de vocabulario abierto, como OWL ViT v2, se entrenan en pares de texto de imágenes a escala web. Generalizan bien en imágenes naturales, pero tienen dificultades cuando las categorías son sutiles, por ejemplo, chimenea versus tanque de almacenamiento, o cuando la geometría de la imagen es diferente, por ejemplo, mosaicos aéreos nadir con objetos rotados y escalas pequeñas. La precisión disminuye porque la incrustación de texto y la incrustación visual se superponen en categorías similares. Un sistema práctico necesita la amplitud de modelos de vocabulario abierto y la precisión de un especialista local, sin horas de ajuste fino de la GPU ni miles de etiquetas nuevas.
Método y diseño en resumen.
FLAME es una tubería en cascada. Paso uno, ejecute un detector de vocabulario abierto de disparo cero para producir muchos cuadros candidatos para una consulta de texto, por ejemplo, “chimenea”. Paso dos, represente a cada candidato con características visuales y su similitud con el texto. Paso tres, recupere muestras marginales que se encuentran cerca del límite de decisión haciendo una proyección de baja dimensión con PCA, luego una estimación de densidad y luego seleccione la banda incierta. Paso cuatro, agrupe esta banda y elija un elemento por grupo para lograr diversidad. Paso cinco: haga que un usuario etiquete alrededor de 30 cultivos como positivos o negativos. Paso seis, opcionalmente reequilibre con SMOTE o SVM SMOTE si las etiquetas están torcidas. Paso siete, entrenar un clasificador pequeño, por ejemplo un RBF SVM o un MLP de dos capas, para aceptar o rechazar las propuestas originales. El detector de base permanece congelado, por lo que usted mantiene la recuperación y la generalización, y el refinador aprende la semántica exacta que quiso decir el usuario.
Conjuntos de datos, modelos base y configuración.
La evaluación utiliza dos puntos de referencia estándar de detección por teledetección. DOTA tiene cuadros orientados en más de 15 categorías en imágenes aéreas de alta resolución. DIOR tiene 23.463 imágenes y 192.472 instancias en 20 categorías. La comparación incluye una línea de base OWL ViT v2 de disparo cero, una línea de base RS OWL ViT v2 de disparo cero que está ajustada en RS WebLI y varias líneas de base de unos pocos disparos. RS OWL ViT v2 mejora el AP medio de disparo cero al 31,827 por ciento en DOTA y al 29,387 por ciento en DIOR, lo que se convierte en el punto de partida de FLAME.
Comprender los resultados
En la adaptación de 30 disparos, FLAME en cascada en RS OWL ViT v2 alcanza un 53,96 por ciento de AP en DOTA y un 53,21 por ciento de AP en DIOR, que es la precisión más alta entre los métodos enumerados. La comparación incluye SIoU, un método basado en prototipos con DINOv2, y un método de algunos disparos propuesto por el equipo de investigación. Estos números aparecen en la Tabla 1. El equipo de investigación también informa el desglose por clase en la Tabla 2. En DIOR, la clase de chimenea mejora de 0,11 en tiro cero a 0,94 después de FLAME, lo que ilustra cómo el refinador elimina falsos positivos similares de las propuestas de vocabulario abierto.
Conclusiones clave
FLAME es una cascada de aprendizaje activo de un paso sobre OWL ViT v2, recupera muestras marginales mediante estimación de densidad, refuerza la diversidad con agrupamiento, recopila alrededor de 30 etiquetas y entrena un refinador liviano como un RBF SVM o un MLP pequeño, sin ajuste fino del modelo base. Con 30 disparos, FLAME en RS OWL ViT v2 alcanza un 53,96 % de AP en DOTA y un 53,21 % de AP en DIOR, superando las líneas base de algunos disparos anteriores, incluido SIoU y un método prototipo con DINOv2. En DIOR, la clase de chimenea mejora de 0,11 en disparo cero a 0,94 después de FLAME, lo que muestra un fuerte filtrado de falsos positivos similares. La adaptación se ejecuta en aproximadamente 1 minuto para cada etiqueta en una CPU estándar, que admite la especialización del usuario en el bucle casi en tiempo real. Zero shot OWL ViT v2 comienza con 13,774% AP en DOTA y 14,982% en DIOR, RS OWL ViT v2 aumenta zero shot AP a 31,827% y 29,387% respectivamente, y FLAME luego ofrece grandes ganancias de precisión en la parte superior.
FLAME es una cascada de aprendizaje activo de un paso que coloca un pequeño refinador encima de OWL ViT v2, selecciona detecciones marginales, recopila alrededor de 30 etiquetas y entrena un pequeño clasificador sin tocar el modelo base. En DOTA y DIOR, FLAME con RS OWL ViT v2 reporta 53,96 por ciento de AP y 53,21 por ciento de AP, estableciendo una sólida línea de base de pocos tiros. En la chimenea DIOR, la precisión promedio aumenta de 0,11 a 0,94 después del refinamiento, lo que ilustra la supresión de falsos positivos. La adaptación se ejecuta en aproximadamente 1 minuto por etiqueta en una CPU, lo que permite la especialización interactiva. OWLv2 y RS WebLI proporcionan la base para propuestas de tiro cero. En general, FLAME demuestra un camino práctico para abrir la especialización en detección de vocabulario en teledetección al combinar las propuestas RS OWL ViT v2 con un refinador de CPU de escala diminuta que eleva DOTA al 53,96 por ciento AP y DIOR al 53,21 por ciento AP.
Consulte el documento aquí. No dude en consultar nuestra página de GitHub para tutoriales, códigos y cuadernos. Además, no dude en seguirnos en Twitter y no olvide unirse a nuestro SubReddit de más de 100.000 ML y suscribirse a nuestro boletín. ¡Esperar! estas en telegrama? Ahora también puedes unirte a nosotros en Telegram.
Asif Razzaq es el director ejecutivo de Marktechpost Media Inc.. Como emprendedor e ingeniero visionario, Asif está comprometido a aprovechar el potencial de la inteligencia artificial para el bien social. Su esfuerzo más reciente es el lanzamiento de una plataforma de medios de inteligencia artificial, Marktechpost, que se destaca por su cobertura en profundidad del aprendizaje automático y las noticias sobre aprendizaje profundo que es técnicamente sólida y fácilmente comprensible para una amplia audiencia. La plataforma cuenta con más de 2 millones de visitas mensuales, lo que ilustra su popularidad entre el público.
🙌 Siga MARKTECHPOST: agréguenos como fuente preferida en Google.