Meta Ai acaba de lanzar Dinov3un modelo de visión por computadora auto-supervisada que establece nuevos estándares para la versatilidad y la precisión en tareas de predicción densas, todo sin la necesidad de datos etiquetados. Dinov3 emplea Aprendizaje auto-supervisado (SSL) a una escala sin precedentes, entrenamiento en 1.700 millones de imágenes con un 7 mil millones de parámetros arquitectura. Por primera vez, un columna vertebral de visión congelada única Superación supera las soluciones de dominio en múltiples tareas visuales, como Detección de objetos, segmentación semántica y seguimiento de video—No requerir no ajustar para la adaptación.
Innovaciones clave y aspectos destacados técnicos
- Entrenamiento SSL sin etiquetas: Dinov3 está entrenado completamente sin anotaciones humanas, lo que lo hace ideal para dominios donde las etiquetas son escasas o caras, incluida Imágenes satelitales, aplicaciones biomédicasy teledetección.
- Columna vertebral escalable: La columna vertebral de Dinov3 es universal y congelada, produciendo Características de imagen de alta resolución que se pueden usar directamente con adaptadores livianos para diversas aplicaciones aguas abajo. Superenta a los principales puntos de referencia de los modelos de dominio específicos y auto-supervisados anteriores en tareas densas.
- Variantes del modelo para la implementación: Meta está lanzando no solo la columna vertebral masiva de VIT-G sino también Versiones destiladas (Vit-B, Vit-L) y Variantes de ConvNext Para apoyar un espectro de escenarios de implementación, desde investigaciones a gran escala hasta dispositivos de borde limitado por recursos.
- Lanzamiento comercial y abierto: Dinov3 se distribuye bajo un licencia comercial Junto con el código completo de capacitación y evaluación, backbones previamente capacitados, adaptadores aguas abajo y cuadernos de muestra para acelerar la investigación, la innovación e integración de productos comerciales.
- Impacto del mundo real: Ya, organizaciones como el Instituto de Recursos Mundiales y Laboratorio de propulsión a chorro de la NASA están utilizando Dinov3: ha mejorado dramáticamente la precisión de la monitorización forestal (reduciendo el error de altura del dosel de los árboles de 4.1m a 1.2m en Kenia) y la visión apoyada para los robots de exploración de Marte con una sobrecarga mínima de cómputo.
- Generalización y escasez de anotaciones: Al emplear SSL a escala, Dinov3 cierra la brecha entre los modelos de visión generales y específicos de la tarea. Elimina la dependencia de los subtítulos o curación web, aprovechando datos no etiquetados para el aprendizaje de características universales y habilitando aplicaciones en campos donde la anotación se cuello de botella.
Comparación de las capacidades de Dinov3
| Atributo | Dino/Dinov2 | Dinov3 (nuevo) |
|---|---|---|
| Datos de capacitación | Hasta 142m imágenes | 1.7b imágenes |
| Parámetros | Hasta 1.1b | 7b |
| Columna vertebral | No requerido | No requerido |
| Tareas de predicción densa | Rendimiento fuerte | Expensaciones de especialistas |
| Variantes de modelo | Vit-s/b/l/g | Vit-B/L/G, Convnext |
| Lanzamiento de código abierto | Sí | Licencia comercial, suite completa |
Conclusión
Dinov3 representa un salto importante en la visión por computadora: su Enforzón universal congelado y enfoque SSL Permiten a los investigadores y desarrolladores abordar tareas de escasez de anotaciones, implementar modelos de alto rendimiento rápidamente y adaptarse a los nuevos dominios simplemente intercambiando adaptadores livianos. El lanzamiento de Meta incluye todo lo necesario para uso académico o industrial, fomentando una amplia colaboración en la comunidad de IA y Computer Vision.
El paquete Dinov3, modelos y código, ahora está disponible para la investigación y la implementación comerciales, marcando un nuevo capítulo para sistemas de visión AI robustos y escalables.
Mira el PapelModelos en Cara abrazada y Página de Github. No dude en ver nuestro Página de Github para tutoriales, códigos y cuadernos. Además, siéntete libre de seguirnos Gorjeo Y no olvides unirte a nuestro Subreddit de 100k+ ml y suscribirse a Nuestro boletín.
Asif Razzaq es el CEO de MarktechPost Media Inc .. Como empresario e ingeniero visionario, ASIF se compromete a aprovechar el potencial de la inteligencia artificial para el bien social. Su esfuerzo más reciente es el lanzamiento de una plataforma de medios de inteligencia artificial, MarktechPost, que se destaca por su cobertura profunda de noticias de aprendizaje automático y de aprendizaje profundo que es técnicamente sólido y fácilmente comprensible por una audiencia amplia. La plataforma cuenta con más de 2 millones de vistas mensuales, ilustrando su popularidad entre el público.