Meta AI Lotes Web-SSL: un enfoque escalable y sin lenguaje para el aprendizaje de representación visual

En los últimos años, los modelos de imagen de lenguaje contrastante como Clip se han establecido como una opción predeterminada para aprender representaciones de visión, particularmente en aplicaciones multimodales como la respuesta de preguntas visuales (VQA) y la comprensión de los documentos. Estos modelos aprovechan los pares de texto de imagen a gran escala para incorporar la base semántica a través de la supervisión del lenguaje. Sin embargo, esta dependencia del texto introduce desafíos conceptuales y prácticos: la suposición de que el lenguaje es esencial para el rendimiento multimodal, la complejidad de adquirir conjuntos de datos alineados y los límites de escalabilidad impuestos por la disponibilidad de datos. Por el contrario, el aprendizaje visual auto-supervisado (SSL), que opera sin lenguaje, ha demostrado históricamente resultados competitivos en tareas de clasificación y segmentación, pero se ha subutilizado para el razonamiento multimodal debido a las brechas de rendimiento, especialmente en las tareas basadas en OCR y cuadros.

Meta se comunica modelos WebSSL en Facing Face (parámetros de 300 m – 7b)

Para explorar las capacidades del aprendizaje visual sin lenguaje a escala, Meta ha lanzado el Familia Web-SSL de modelos Dino y Vision Transformer (VIT)que van desde 300 millones a 7 mil millones de parámetros, ahora disponible públicamente a través de la cara abrazada. Estos modelos están entrenados exclusivamente en el subconjunto de imágenes del Conjunto de datos Metaclip (MC-2B)—Eset de datos a escala web que comprende dos mil millones de imágenes. Esta configuración controlada permite una comparación directa entre WebSSL y Clip, ambos entrenados en datos idénticos, aislando el efecto de la supervisión del lenguaje.

El objetivo no es reemplazar el clip, sino evaluar rigurosamente hasta qué tan lejos puede llegar la auto-supervisión visual pura cuando el modelo y la escala de datos ya no son factores limitantes. Este lanzamiento representa un paso significativo para comprender si la supervisión del lenguaje es necesaria, o meramente beneficiosa, para capacitar a los codificadores de visión de alta capacidad.

Metodología de arquitectura técnica y capacitación

WebSSL abarca dos paradigmas SSL visuales: aprendizaje de incrustación conjunta (a través de Dinov2) y modelado enmascarado (a través de MAE). Cada modelo sigue un protocolo de entrenamiento estandarizado que utiliza imágenes de resolución de 224 × 224 y mantiene un codificador de visión congelado durante la evaluación posterior para garantizar que las diferencias observadas sean atribuibles únicamente a la prisión previa.

Los modelos están entrenados en cinco niveles de capacidad (VIT-1B a VIT-7B), utilizando solo datos de imagen no etiquetados de MC-2B. La evaluación se realiza utilizando Cambrian-1un conjunto integral de referencia VQA de 16 tareas que abarca la comprensión general de la visión, el razonamiento basado en el conocimiento, el OCR e interpretación basada en los gráficos.

Además, los modelos son compatibles de forma nativa en abrazar la cara transformers Biblioteca, que proporciona puntos de control accesibles e integración perfecta en flujos de trabajo de investigación.

Informes de rendimiento y comportamiento de escala

Los resultados experimentales revelan varios hallazgos clave:

  • Tamaño del modelo de escala: Los modelos WebSSL demuestran mejoras de registro-lineal cerca del rendimiento de VQA con un recuento de parámetros aumentado. Por el contrario, el rendimiento de Clip se mesetas más allá de los parámetros 3B. WebSSL mantiene resultados competitivos en todas las categorías VQA y muestra ganancias pronunciadas en las tareas de OCR & Chart centradas en la visión y OCR a escamas más grandes.
  • La composición de datos es importante: Al filtrar los datos de capacitación para incluir solo el 1.3% de las imágenes ricas en texto, WebSSL supera el clip en las tareas de OCR & Chart, alcanzando +13.6% de ganancias en Ocrbench y Chartqa. Esto sugiere que La presencia de texto visual solono las etiquetas de idiomas, mejora significativamente el rendimiento específico de la tarea.
  • Entrenamiento de alta resolución: Modelos WebSSL ajustados a la resolución 518px cierre aún más la brecha de rendimiento con modelos de alta resolución como SIGLIP, particularmente para tareas de documentos pesados.
  • Alineación de LLM: Sin ninguna supervisión del lenguaje, WebSSL muestra una alineación mejorada con modelos de lenguaje previos a la aparición (por ejemplo, LLAMA-3) a medida que aumentan el tamaño del modelo y la exposición a la capacitación. Este comportamiento emergente implica que los modelos de visión más grandes aprenden implícitamente características que se correlacionan bien con la semántica textual.

Es importante destacar que WebSSL mantiene un fuerte rendimiento en los puntos de referencia tradicionales (clasificación ImageNet-1K, segmentación ADE20K, estimación de profundidad NYUV2) y, a menudo, supera a Metaclip e incluso Dinov2 en entornos equivalentes.

Observaciones finales

El estudio Web-SSL de Meta proporciona una fuerte evidencia de que El aprendizaje visual auto-supervisado, cuando se escala apropiadamente, es una alternativa viable a la pretruación de la esparcimiento de lenguaje. Estos hallazgos desafían la suposición predominante de que la supervisión del idioma es esencial para la comprensión multimodal. En cambio, destacan la importancia de la composición del conjunto de datos, la escala del modelo y la evaluación cuidadosa en diversos puntos de referencia.

La liberación de modelos que van desde parámetros de 300 m a 7b permite una investigación más amplia y una experimentación posterior sin las restricciones de datos pareados o tuberías patentadas. Como bases de código abierto para futuros sistemas multimodales, los modelos WebSSL representan un avance significativo en el aprendizaje de visión escalable y sin lenguaje.


Mira el Modelos en la cara abrazada, Página de Github y Papel. Además, no olvides seguirnos Gorjeo y únete a nuestro Canal de telegrama y LinkedIn GRsalpicar. No olvides unirte a nuestro 90k+ ml de subreddit.

🔥 [Register Now] Conferencia virtual de Minicon sobre AI agente: registro gratuito + Certificado de asistencia + Evento corto de 4 horas (21 de mayo, 9 am- 1 pm PST) + Hands on Workshop


Asif Razzaq es el CEO de MarktechPost Media Inc .. Como empresario e ingeniero visionario, ASIF se compromete a aprovechar el potencial de la inteligencia artificial para el bien social. Su esfuerzo más reciente es el lanzamiento de una plataforma de medios de inteligencia artificial, MarktechPost, que se destaca por su cobertura profunda de noticias de aprendizaje automático y de aprendizaje profundo que es técnicamente sólido y fácilmente comprensible por una audiencia amplia. La plataforma cuenta con más de 2 millones de vistas mensuales, ilustrando su popularidad entre el público.