RF-DETR bajo el capó: los conocimientos de la detección de transformadores en tiempo real

En el mundo de la visión por computadora, probablemente haya oído hablar de RF-DETR, el nuevo modelo de detección de objetos en tiempo real de Roboflow. Se ha convertido en el nuevo SOTA por su impresionante rendimiento. Pero para apreciar verdaderamente lo que lo motiva, debemos mirar más allá de los puntos de referencia y sumergirnos en su ADN arquitectónico.

RF-DETR no es un invento completamente nuevo; su historia es un viaje fascinante para resolver un problema a la vez, comenzando con una limitación fundamental en el DETR original y terminando con un Transformer liviano en tiempo real. Sigamos esta evolución.

Un cambio de paradigma en los procesos de detección

En 2020 llegó DETR (DEtection TRansformer) [1]un modelo que cambió por completo el proceso de detección de objetos. Fue el primer detector completamente de extremo a extremo, eliminando la necesidad de componentes diseñados manualmente como la generación de anclaje y la supresión no máxima (NMS). Lo logró combinando una red troncal de CNN con una arquitectura de codificador-decodificador Transformer. A pesar de su diseño revolucionario, el DETR original tenía problemas importantes:

Convergencia extremadamente lenta: DETR requirió una gran cantidad de épocas de entrenamiento para converger, lo que fue entre 10 y 20 veces más lento que modelos como Faster R-CNN. Alta complejidad computacional: el mecanismo de atención en el codificador Transformer tiene una complejidad de O (H2W2C) con respecto a las dimensiones espaciales (H, W) del mapa de características. Esta complejidad cuadrática hizo que fuera prohibitivamente costoso procesar mapas de características de alta resolución. Bajo rendimiento en objetos pequeños: como consecuencia directa de su alta complejidad, DETR no pudo usar mapas de características de alta resolución, que son fundamentales para detectar objetos pequeños.

Todos estos problemas tenían su origen en la forma en que la atención de Transformer procesaba las características de la imagen mirando cada píxel, lo cual era ineficiente y difícil de entrenar.

El gran avance: DETR deformable

Para resolver los problemas de DETR, los investigadores miraron hacia atrás y encontraron inspiración en las redes convolucionales deformables. [2]. Durante años, las CNN han dominado la visión por computadora. Sin embargo, tienen una limitación inherente: les cuesta modelar transformaciones geométricas. Esto se debe a que sus componentes básicos, como las capas de convolución y de agrupación, tienen estructuras geométricas fijas. Aquí es donde las CNN deformables entraron en escena. La idea clave era brillantemente simple: ¿qué pasaría si la cuadrícula de muestreo de las CNN no fuera fija?

El nuevo módulo, convolución deformable, aumenta las ubicaciones de muestreo de cuadrícula estándar con compensaciones 2D. Fundamentalmente, estas compensaciones no son fijas; se aprenden de los mapas de características anteriores a través de capas convolucionales adicionales. Esto permite que la cuadrícula de muestreo se deforme dinámicamente y se adapte a la forma y escala del objeto de una manera local y densa.

Imagen del autor

Esta idea de muestreo adaptativo de convoluciones deformables se aplicó al mecanismo de atención del transformador. El resultado fue DETR deformable [3].

La principal innovación es el módulo de atención deformable. En lugar de calcular los pesos de atención de todos los píxeles de un mapa de características, este módulo hace algo mucho más inteligente:

Atiende sólo a un número pequeño y fijo de puntos de muestreo clave alrededor de un punto de referencia. Al igual que en la convolución deformable, los desplazamientos 2D para estos puntos de muestreo se aprenden del propio elemento de consulta mediante una proyección lineal. Evita la necesidad de una arquitectura FPN separada porque su mecanismo de atención tiene la capacidad incorporada de procesar y fusionar características de múltiples escalas directamente.

Ilustración del módulo de atención deformable extraída de [3]

El gran avance de Deformable Attention es que “solo atiende a un pequeño conjunto de puntos de muestreo clave”. [3] alrededor de un punto de referencia, independientemente del tamaño espacial de los mapas de características. El análisis del artículo muestra que cuando este nuevo módulo se aplica en el codificador (donde el número de consultas, Nq, es igual al tamaño espacial, HW), la complejidad se vuelve O(HWC2), que es lineal con el tamaño espacial. Este cambio singular hace que sea computacionalmente factible procesar mapas de características de alta resolución, lo que mejora drásticamente el rendimiento en objetos pequeños.

Haciéndolo en tiempo real: LW-DETR

El DETR deformable solucionó los problemas de convergencia y precisión, pero para competir con modelos como YOLO, necesitaba ser más rápido. Aquí es donde LW-DETR (DETR ligero) [4] entra. Su objetivo era crear una arquitectura basada en Transformer que pudiera superar a los modelos YOLO en la detección de objetos en tiempo real. La arquitectura es una pila simple: un codificador Vision Transformer (ViT), un proyector y un decodificador DETR superficial. Se deshicieron de la parte de la arquitectura codificador-decodificador del marco DETR y conservaron solo la parte del decodificador, como se puede ver en esta línea de código.

Imagen del autor

Para lograr su velocidad, incorporó varias técnicas clave de eficiencia:

Atención cruzada deformable: el decodificador utiliza directamente el eficiente mecanismo de atención deformable de Deformable DETR, que es crucial para su rendimiento. Ventana entrelazada y atención global: el codificador ViT es caro. Para reducir su complejidad, LW-DETR reemplaza algunas de las costosas capas de autoatención global con capas de autoatención de ventana mucho más económicas. Decodificador menos profundo: las variantes DETR estándar suelen utilizar 6 capas de decodificador. LW-DETR utiliza sólo 3, lo que reduce significativamente la latencia.

El proyector en LW-DETR actúa como un puente crucial, conectando el codificador Vision Transformer (ViT) al decodificador DETR. Está construido utilizando un bloque C2f, que es un bloque convolucional eficiente utilizado en el modelo YOLOv8. Este bloque procesa las características y las prepara para el mecanismo de atención cruzada del decodificador. Al combinar el poder de la atención deformable con estas opciones de diseño liviano, LW-DETR demostró que un modelo de estilo DETR podría ser un detector en tiempo real de alto rendimiento.

Montaje de las piezas para RF-DETR

Y eso nos lleva de nuevo a RF-DETR. [5]. No se trata de un avance aislado sino del siguiente paso lógico en esta cadena evolutiva. Específicamente, crearon RF-DETR combinando LW-DETR con una red troncal DINOv2 previamente entrenada como se ve en esta línea de código. Esto le da al modelo una capacidad excepcional para adaptarse a dominios novedosos basados ​​en el conocimiento almacenado en la columna vertebral DINOv2 previamente entrenada. La razón de esta excepcional adaptabilidad es que DINOv2 es un modelo autosupervisado. A diferencia de las redes troncales tradicionales entrenadas en ImageNet con etiquetas fijas, DINOv2 se entrenó en un conjunto de datos masivo, no curado y sin etiquetas humanas. Aprendió resolviendo una especie de “rompecabezas”, lo que lo obligó a desarrollar una comprensión increíblemente rica y de propósito general de la textura, la forma y las partes de los objetos. Cuando RF-DETR utiliza esta columna vertebral, no se trata solo de obtener un extractor de funciones; se trata de obtener una base de conocimiento visual profunda que se puede ajustar para tareas especializadas con una eficiencia notable.

Imagen del autor

Una distinción clave con respecto a los modelos anteriores es que Deformable DETR utiliza un mecanismo de autoatención de múltiples escalas, mientras que el modelo RF-DETR extrae mapas de características de imágenes de una columna vertebral de una sola escala. Recientemente, el equipo detrás del modelo RF-DETR incorporó un cabezal de segmentación para proporcionar máscaras además de cuadros delimitadores, lo que lo convierte también en una opción ideal para tareas de segmentación. Por favor, consulta su documentación para empezar a utilizarlo, perfeccionarlo o incluso exportarlo en formato ONNX.

Conclusión

El DETR original revolucionó el proceso de detección al eliminar componentes diseñados manualmente como NMS, pero no resultó práctico debido a la lenta convergencia y la complejidad cuadrática. El DETR deformable proporcionó un avance arquitectónico clave, cambiando la atención global por un mecanismo de muestreo eficiente y adaptable inspirado en convoluciones deformables. Luego, LW-DETR demostró que esta arquitectura eficiente podía empaquetarse para un rendimiento en tiempo real, desafiando el dominio de YOLO. RF-DETR representa el siguiente paso lógico: combina esta arquitectura deformable y altamente optimizada con la potencia bruta de una red troncal moderna y autosupervisada.

Referencias

[1] Detección de objetos de extremo a extremo con transformadores. Nicolás Carión et. Alabama. 2020.

[2] Redes convolucionales deformables. Jifeng Dai y. Alabama. 2017.

[3] DETR deformable: Transformadores deformables para la detección de objetos de un extremo a otro. Xizhou Zhu y otros. Alabama. 2020.

[4] LW-DETR: un reemplazo de transformador para YOLO para detección en tiempo real. Qiang Chen y. Alabama. 2024.

[5] https://github.com/roboflow/rf-detr/tree/develop