Meta Clip 2: La primera capacitación de imagen de idioma contrastante (clip) entrenado con pares de texto de imagen mundial desde cero

El pre-entrenamiento de imagen de lenguaje contrastante (clip) se ha vuelto importante para la visión moderna y los modelos multimodales, lo que permite aplicaciones como la clasificación de imágenes de disparo cero y sirviendo como codificadores de visión en MLLM. Sin embargo, la mayoría de las variantes de clip, incluido el meta clip, se limitan a la curación de datos solo en inglés, ignorando una cantidad significativa de contenido no inglés de la web mundial. El clip de escala para incluir datos multilingües tiene dos desafíos: (a) la falta de un método eficiente para curar los datos no ingleses a escala y (b) la disminución del rendimiento del inglés al agregar datos multilingües, también conocidos como la maldición de la multilingüidad. Estos problemas obstaculizan el desarrollo de modelos unificados optimizados para tareas inglesas y no inglesas.

Métodos como OpenAI Clip y Meta Clip dependen de la curación centrada en inglés, y los enfoques basados en la destilación introducen sesgos de modelos de maestros externos. Siglip y Siglip 2 intentan utilizar datos de la búsqueda de imágenes de Google, pero su dependencia de fuentes propietarias limita la escalabilidad. Los modelos de clip multilingües, como M-Clip y MCLIP, adoptan técnicas de destilación, utilizando clip solo en inglés como codificador de visión y entrenamiento de codificadores de texto multilingües con datos de baja calidad. Además, los métodos híbridos como Slip y Lit combinan la supervisión del idioma con el aprendizaje auto-supervisado (SSL) para equilibrar la alineación semántica y la representación visual. A pesar de estos esfuerzos, ninguno de los métodos ha resuelto los problemas centrales.

Investigadores de Meta, MIT, Universidad de Princeton y la Universidad de Nueva York han propuesto Meta Clip 2, el primer método para entrenar a los modelos de clip desde cero utilizando pares nativos de texto de imagen en todo el mundo sin depender de recursos externos como datos privados, traducción a máquina o destilación. Elimina las compensaciones de rendimiento entre los datos en inglés y no inglés al diseñar y escalar conjuntamente metadatos, curación de datos, capacidad del modelo y capacitación. El meta clip 2 maximiza la compatibilidad con la arquitectura de OpenAi Clip, asegurando la generalización para el clip y sus variantes. Además, su receta introduce tres innovaciones para escalar en todo el mundo: (a) metadatos escalables en más de 300 idiomas, (b) un algoritmo de curación por idioma para la distribución de conceptos equilibrados y (c) un marco de capacitación avanzado.

Para abordar el primer desafío, los investigadores utilizaron datos curados a nivel mundial y para abordar el segundo, desarrollaron un marco de entrenamiento de clips en todo el mundo. Este marco sigue a la configuración de entrenamiento y la arquitectura del modelo de Openai y Meta Clip, incluidas tres adiciones: un tokenizador de texto multilingüe, escala de pares de entrenamiento vistos y un análisis de una capacidad de modelo viable mínima. Para garantizar la generalización, la configuración de entrenamiento utiliza modelos VIT-L/14 y VIT-H/14 de Openai Clip y Meta Clip, con modificaciones para soporte multilingüe. Además, los estudios sobre la expresividad del modelo mínimo revelan que incluso las luchas VIT-L/14 de OpenAi con la maldición debido a la capacidad limitada, mientras que VIT-H/14 sirve como un punto de inflexión, logrando ganancias notables en tareas inglesas y no inglesas.

Meta Clip 2 supera a sus contrapartes solo en inglés (1.0 ×) y no ingleses (1.3 ×) en tareas en inglés y multilingües cuando se entrenan en VIT-H/14 con datos mundiales y pares vistos a escala. Sin embargo, la maldición persiste en entornos no escala o con modelos más pequeños como VIT-L/14. La transición de metadatos centrados en inglés a equivalentes mundiales es esencial. Por ejemplo, eliminar el filtro en inglés en los textos alternativos conduce a una caída del 0.6% en la precisión del Imagenet, destacando el papel del aislamiento del idioma. Reemplazar los metadatos en inglés con metadatos mundiales fusionados inicialmente reduce el rendimiento del inglés, pero aumenta las capacidades multilingües. Las evaluaciones sobre la clasificación de disparo cero y los puntos de referencia geo-localización de pocos disparos muestran que la escala de inglés 13B a 29B en todo el mundo mejora los resultados, excepto el rendimiento saturado en Geode.

En conclusión, los investigadores introdujeron Meta Clip 2, el primer modelo de clip se entrenó desde cero en pares mundiales de texto de imagen. Muestra que la escala de metadatos, curación y capacidad de entrenamiento puede romper la “maldición de la multilingüe”, lo que permite beneficios mutuos para el rendimiento inglés y no inglés. Meta Clip 2 (Vit-H/14) supera a su contraparte en inglés solo en Imagenet de disparo cero (80.5% → 81.3%) y sobresale en puntos de referencia multilingües como XM3600, Babel-In y CVQA con un solo modelo unificado. Al emitir abierta sus metadatos, métodos de curación y código de entrenamiento, Meta Clip 2 permite a la comunidad de investigación ir más allá de los enfoques centrados en el inglés y adoptar el potencial de la web multimodal mundial.


Mira el Papel y Página de Github. No dude en ver nuestro Página de Github para tutoriales, códigos y cuadernos. Además, siéntete libre de seguirnos Gorjeo Y no olvides unirte a nuestro Subreddit de 100k+ ml y suscribirse a Nuestro boletín.


Sajjad Ansari es un pregrado de último año de IIT Kharagpur. Como entusiasta de la tecnología, profundiza en las aplicaciones prácticas de la IA con un enfoque en comprender el impacto de las tecnologías de IA y sus implicaciones del mundo real. Su objetivo es articular conceptos complejos de IA de manera clara y accesible.