Meta AI presenta el codificador de percepción: un codificador de visión a gran escala que sobresale en varias tareas de visión para imágenes y videos

El desafío de diseñar codificadores de visión de uso general

A medida que los sistemas de IA se vuelven cada vez más multimodales, el papel de los modelos de percepción visual se vuelve más complejo. Se espera que los codificadores de visión no solo reconozcan objetos y escenas, sino también que admitan tareas como subtítulos, respuesta a preguntas, reconocimiento de grano fino, análisis de documentos y razonamiento espacial en imágenes y videos. Los modelos existentes generalmente se basan en diversos objetivos previos al pretrario: aprendizaje contrastivo para la recuperación, subtitulación de tareas lingüísticas y métodos auto-supervisados ​​para la comprensión espacial. Esta fragmentación complica la escalabilidad y la implementación del modelo, e introduce compensaciones en el rendimiento en todas las tareas.

Lo que sigue siendo un desafío clave es el diseño de un codificador de visión unificado que puede coincidir o exceder los métodos específicos de la tarea, operar de manera robusta en escenarios de mundo abierto y escalar de manera eficiente a través de las modalidades.

Una solución unificada: codificador de percepción de Meta AI

Meta AI presenta Codador de percepción (PE)una familia de modelos de visión entrenada utilizando un objetivo de lenguaje de visión contrastante único y refinado con técnicas de alineación adaptadas para tareas aguas abajo. PE se aparta del paradigma tradicional de pretratenamiento múltiple. En cambio, demuestra que con una receta de entrenamiento cuidadosamente ajustada y métodos de alineación apropiados, el aprendizaje contrastante solo puede producir representaciones visuales altamente generalizables.

El codificador de percepción opera a través de tres escalas (Pecoreb, Pecorel y Pecoreg, con el modelo más grande (a escala G) que contiene parámetros 2B. Estos modelos están diseñados para funcionar como codificadores de uso general para entradas de imágenes y video, ofreciendo un rendimiento fuerte en la clasificación, recuperación y razonamiento multimodal.

Enfoque de entrenamiento y arquitectura

La prisión previa de PE sigue un proceso de dos etapas. La primera etapa implica un aprendizaje contrastante robusto en un conjunto de datos de texto de imagen curado a gran escala (pares de 5.4b), donde varias mejoras arquitectónicas y de entrenamiento mejoran tanto la precisión como la robustez. Estos incluyen escala de resolución progresiva, tamaños de lotes grandes (hasta 131k), uso del optimizador de cordero, codificación posicional de cuerda 2D, aumentos sintonizados y regularización enmascarada.

La segunda etapa presenta una comprensión de video al aprovechar un motor de datos de video Eso sintetiza pares de video-texto de alta calidad. Esta tubería incorpora subtítulos del modelo de lenguaje de percepción (PLM), descripciones a nivel de marco y metadatos, que luego se resumen usando LLAMA 3.3. Estas anotaciones sintéticas permiten que el mismo codificador de imagen esté ajustado para las tareas de video mediante promedio de cuadro.

A pesar del uso de un objetivo de contraste único, PE presenta representaciones de propósito general distribuidas a través de capas intermedias. Para acceder a estos, Meta presenta dos estrategias de alineación:

  • Alineación del idioma para tareas como la respuesta y el subtítulos de las preguntas visuales.
  • Alineación espacial Para la detección, el seguimiento y la estimación de profundidad, utilizando la destilación de autodistilación y correspondencia espacial a través de SAM2.

Rendimiento empírico a través de modalidades

PE demuestra una fuerte generalización de disparo cero en una amplia gama de puntos de referencia de visión. En la clasificación de imágenes, Pecoreg coincide o excede modelos patentados entrenados en grandes conjuntos de datos privados como JFT-3B. Logra:

  • 86.6% en Imagenet-Val,
  • 92.6% en imagenet-adversarial,
  • 88.2% En el conjunto completo de objeto,
  • Resultados competitivos en conjuntos de datos de grano fino que incluyen flores inaturalistas, food101 y oxford.

En las tareas de video, PE logra un rendimiento de última generación en puntos de referencia de clasificación y recuperación de cero disparos, superando a Internvideo2 y Siglip2-G-OPT, mientras se entrenan en solo 22 m de pares de video sintética. El uso de una agrupación promedio simple en los cuadros, en lugar de la atención temporal, demuestra que la simplicidad arquitectónica, cuando se combina con datos de entrenamiento bien alineados, aún puede producir representaciones de video de alta calidad.

Un estudio de ablación muestra que cada componente del motor de datos de video contribuye de manera significativa al rendimiento. Las mejoras de +3.9% en la clasificación y +11.1% en la recuperación sobre líneas de base de solo imagen resaltan la utilidad de los datos de video sintético, incluso a escala modesta.

Conclusión

El codificador de percepción proporciona una demostración técnicamente convincente de que un objetivo contrastante único, si se implementa con cuidado y emparejado con estrategias de alineación reflexivas, es suficiente para construir codificadores de visión de uso general. PE no solo coincide con los modelos especializados en sus respectivos dominios, sino que lo hace con un enfoque unificado y escalable.

El lanzamiento de PE, junto con su base de datos y el conjunto de datos de video PE, ofrece a la comunidad de investigación una base reproducible y eficiente para construir sistemas de IA multimodales. A medida que las tareas de razonamiento visual crecen en complejidad y alcance, PE proporciona un camino hacia adelante hacia una comprensión visual más integrada y robusta.


Mira el Papel, Modelo, Código y Conjunto de datos. Además, no olvides seguirnos Gorjeo y únete a nuestro Canal de telegrama y LinkedIn GRsalpicar. No olvides unirte a nuestro 90k+ ml de subreddit.

🔥 [Register Now] Conferencia virtual de Minicon sobre AI agente: registro gratuito + Certificado de asistencia + Evento corto de 4 horas (21 de mayo, 9 am- 1 pm PST) + Hands on Workshop


Asif Razzaq es el CEO de MarktechPost Media Inc .. Como empresario e ingeniero visionario, ASIF se compromete a aprovechar el potencial de la inteligencia artificial para el bien social. Su esfuerzo más reciente es el lanzamiento de una plataforma de medios de inteligencia artificial, MarktechPost, que se destaca por su cobertura profunda de noticias de aprendizaje automático y de aprendizaje profundo que es técnicamente sólido y fácilmente comprensible por una audiencia amplia. La plataforma cuenta con más de 2 millones de vistas mensuales, ilustrando su popularidad entre el público.