NVIDIA AI lanza la columna vertebral de visión C-RADIOv4 que unifica SigLIP2, DINOv3 y SAM3 para cargas de trabajo de clasificación, predicción densa y segmentación a escala

¿Cómo se combinan SigLIP2, DINOv3 y SAM3 en una columna vertebral de visión única sin sacrificar el rendimiento denso o de segmentación? C-RADIOv4 de NVIDIA es una nueva columna vertebral de visión aglomerativa que destila tres potentes modelos para profesores, SigLIP2-g-384, DINOv3-7B y SAM3, en un único codificador para estudiantes. Amplía la línea AM-RADIO y RADIOv2.5, manteniendo un costo computacional similar al tiempo que mejora la calidad de predicción densa, la solidez de la resolución y la compatibilidad directa con SAM3.

La idea clave es simple. En lugar de elegir entre un modelo de lenguaje de visión, un modelo denso autosupervisado y un modelo de segmentación, C-RADIOv4 intenta aproximarse a los tres a la vez con una sola columna vertebral.

https://www.arxiv.org/pdf/2601.17237

Destilación aglomerativa en RADIO

La familia RADIO utiliza destilación aglomerativa. Un único estudiante de estilo ViT está capacitado para unir mapas de características densas y fichas de resumen de varios profesores heterogéneos.

Los modelos RADIO anteriores combinaban DFN CLIP, DINOv2 y SAM. Ya admitían el entrenamiento de resolución múltiple, pero mostraban un “cambio de modo”, donde la representación cambiaba cualitativamente a medida que cambiaba la resolución de entrada. Trabajos posteriores como PHI-S, RADIOv2.5 y FeatSharp agregaron una mejor destilación y regularización de resolución múltiple, pero el conjunto de profesores aún era limitado.

C-RADIOv4 actualiza a los profesores:

SigLIP2-g-384 para una alineación más sólida del texto de la imagen DINOv3-7B para funciones densas autosupervisadas de alta calidad SAM3 para funciones orientadas a la segmentación y compatibilidad con el decodificador SAM3

Se entrena al estudiante para que sus características densas coincidan con DINOv3 y SAM3, mientras que sus tokens de resumen coincidan con SigLIP2 y DINOv3. Esto proporciona un codificador que puede admitir clasificación, recuperación, predicción densa y segmentación.

Entrenamiento estocástico de resolución múltiple.

C-RADIOv4 utiliza entrenamiento estocástico de resolución múltiple en lugar de un pequeño conjunto fijo de resoluciones.

Muestras de entrenamiento de tamaños de entrada de dos particiones:

Baja resolución: {128, 192, 224, 256, 384, 432} Alta resolución: {512, 768, 1024, 1152}

SigLIP2 funciona de forma nativa a 384 píxeles. Sus características se aumentan en un factor de 3 usando FeatSharp para alinearse con las características SAM3 de 1152 píxeles. SAM3 se entrena con aumento de mosaico a 1152 × 1152.

Este diseño suaviza la curva de rendimiento sobre la resolución y mejora el comportamiento en baja resolución. Por ejemplo, en el sondeo lineal ADE20k, C-RADIOv4-H alcanza alrededor de:

55,20 mIOU a 512 px 57,02 mIOU a 1024 px 57,72 mIOU a 1536 px

La tendencia de escala está cerca de DINOv3-7B y utiliza aproximadamente un orden de magnitud menos de parámetros.

Eliminación del ruido de los profesores con pérdidas equivalentes a turnos y MESA

La extracción de modelos de visión amplia tiende a copiar sus artefactos, no sólo su estructura útil. SigLIP2 tiene patrones de ruido en los bordes y los modelos de estilo ViTDet pueden mostrar artefactos en los límites de las ventanas. La regresión directa de características puede obligar al estudiante a reproducir esos patrones.

C-RADIOv4 introduce dos mecanismos equivariantes de cambio para suprimir dicho ruido:

Pérdida densa equivariante por cambio: cada profesor y estudiante ven recortes de una imagen desplazados de forma independiente. Antes de calcular el error al cuadrado, las características se alinean mediante un mapeo de desplazamiento y la pérdida solo utiliza posiciones espaciales superpuestas. Debido a que el estudiante nunca ve las mismas posiciones absolutas que el profesor, no puede simplemente memorizar el ruido de posición fija y, en su lugar, se ve obligado a seguir la estructura dependiente de la entrada. Equivariante de cambio MESA: C-RADIOv4 también utiliza la regularización de estilo MESA entre la red en línea y una copia de EMA. Aquí nuevamente, el estudiante y su EMA ven diferentes recortes, las características se alinean mediante un desplazamiento y la pérdida se aplica después de la normalización de la capa. Esto fomenta paisajes de pérdida suaves y robustez, al tiempo que es invariante a la posición absoluta.

Además, el entrenamiento utiliza DAMP, que inyecta ruido multiplicativo en las pesas. Esto mejora aún más la solidez ante la corrupción y los pequeños cambios de distribución.

Equilibrando a los profesores con una pérdida sumaria consciente de la dispersión angular

La pérdida resumida en modelos RADIO anteriores utilizaba la distancia coseno entre las incorporaciones de estudiantes y profesores. La distancia del coseno elimina la magnitud pero no la dispersión direccional en la esfera. Algunos profesores, como SigLIP2, producen incrustaciones concentradas en un cono estrecho, mientras que las variantes DINOv3 producen incrustaciones más dispersas.

Si se utiliza la distancia del coseno bruta, los profesores con una dispersión angular más amplia contribuyen con mayores pérdidas y dominan la optimización. En la práctica, DINOv3 tendió a eclipsar a SigLIP2 en el término resumido.

C-RADIOv4 reemplaza esto con una pérdida de ángulo normalizado. El ángulo cuadrado entre las incrustaciones de estudiantes y profesores se divide por la dispersión angular del profesor. Las dispersiones medidas muestran SigLIP2-g-384 alrededor de 0,694, mientras que DINOv3-H+ y DINOv3-7B están alrededor de 2,12 y 2,19. La normalización mediante estos valores iguala su influencia y preserva tanto el lenguaje visual como la semántica densa.

Rendimiento: clasificación, predicción densa y Probe3d

En la clasificación de disparo cero de ImageNet-1k, C-RADIOv4-H alcanza aproximadamente el 83,09 % de precisión top-1. Iguala o mejora a RADIOv2.5-H y C-RADIOv3-H en todas las resoluciones, con el mejor rendimiento cerca de 1024 px.

En la clasificación k-NN, C-RADIOv4-H mejora con respecto a RADIOv2.5 y C-RADIOv3, e iguala o supera a DINOv3 a partir de 256 px. DINOv3 alcanza un máximo cercano a 192–256 px y luego se degrada, mientras que C-RADIOv4 se mantiene estable o mejora el rendimiento a resoluciones más altas.

Las métricas densas y con reconocimiento 3D muestran la compensación prevista. En ADE20k, PASCAL VOC, NAVI y SPair, C-RADIOv4-H y la variante SO400M superan a los modelos RADIO anteriores y son competitivos con DINOv3-7B en pruebas comparativas densas. Para C-RADIOv4-H, las puntuaciones típicas son:

ADE20k: 55,20 mIoU VOC: 87,24 mIoU NAVI: 63,44 SPair: 60,57

https://www.arxiv.org/pdf/2601.17237

En Probe3d, que incluye Depth Normals, Surface Normals, NAVI y SPair, C-RADIOv4-H logra las mejores puntuaciones NAVI y SPair de la familia RADIO. Las métricas de profundidad y superficie son cercanas a las de C-RADIOv3-H, con pequeñas diferencias en ambas direcciones, en lugar de una mejora uniforme.

Integración con implementación en modo SAM3 y ViTDet

C-RADIOv4 está diseñado para ser un reemplazo directo de la columna vertebral del codificador de percepción en SAM3. El decodificador y los componentes de memoria del SAM3 permanecen sin cambios. Se proporciona una implementación de referencia en una bifurcación SAM3. Los ejemplos cualitativos muestran que el comportamiento de segmentación se conserva para ambos mensajes de texto, como “zapato”, “casco”, “bicicleta”, “espectador” y mensajes de cuadro, y en algunos casos informados, SAM3 basado en C-RADIOv4 resuelve casos de falla del codificador original.

Para la implementación, C-RADIOv4 expone una configuración en modo ViTDet. La mayoría de los bloques transformadores utilizan atención en ventana, mientras que unos pocos utilizan atención global. Los tamaños de ventana admitidos varían de 6 × 6 a 32 × 32 tokens, sujetos a divisibilidad con el tamaño del parche y la resolución de la imagen. En un A100, el modelo SO400M con un tamaño de ventana como máximo de 12 es más rápido que el codificador SAM3 ViT-L+ en una amplia gama de tamaños de entrada, y el modelo Huge con un tamaño de ventana de 8 tiene una latencia cercana.

Esto convierte a C-RADIOv4 en una columna vertebral práctica para tareas densas de alta resolución donde la atención global total en todas las capas es demasiado costosa.

Conclusiones clave

Red troncal unificada única: C-RADIOv4 destila SigLIP2-g-384, DINOv3-7B y SAM3 en un codificador estilo ViT que admite clasificación, recuperación, predicción densa y segmentación. Comportamiento en cualquier resolución: el entrenamiento estocástico de resolución múltiple sobre {128…1152} px y el muestreo ascendente FeatSharp para SigLIP2 estabilizan el rendimiento en todas las resoluciones y rastrean el escalado DINOv3-7B con muchos menos parámetros. Supresión de ruido mediante equivariación de cambio: la pérdida densa equivariante de cambio y MESA equivariante de cambio evitan que el estudiante copie los artefactos de ventana y borde del maestro, centrando el aprendizaje en la semántica dependiente de la entrada. Destilación equilibrada de múltiples profesores: una pérdida de resumen normalizada de dispersión angular iguala la contribución de SigLIP2 y DINOv3, preservando tanto la alineación del texto como la calidad de la representación densa. Implementación lista para SAM3 y ViTDet: C-RADIOv4 puede reemplazar directamente el codificador de percepción SAM3, ofrece atención en ventana en modo ViTDet para una inferencia de alta resolución más rápida y se publica bajo la licencia de modelo abierto de NVIDIA.

Consulte Paper, Repo, Model-1 y Model-2. Además, no dude en seguirnos en Twitter y no olvide unirse a nuestro SubReddit de más de 100.000 ML y suscribirse a nuestro boletín. ¡Esperar! estas en telegrama? Ahora también puedes unirte a nosotros en Telegram.