Descubriendo los secretos del éxito de los datos de CLIP: presentación de MetaCLIP para el entrenamiento previo optimizado de lenguaje e imagen

En los últimos años, se han producido avances excepcionales en Inteligencia Artificial, con la introducción de muchos nuevos modelos avanzados, especialmente en PNL y Visión por Computador. CLIP es una red neuronal desarrollada por OpenAI entrenada en un conjunto de datos masivo de pares de texto e imágenes. Ha ayudado a avanzar en numerosas investigaciones sobre visión por computadora y ha respaldado sistemas de reconocimiento y modelos generativos modernos. Los investigadores creen que CLIP debe su eficacia a los datos con los que fue entrenado y creen que descubrir el proceso de curación de datos les permitiría crear algoritmos aún más efectivos.

En este trabajo de investigación, los investigadores han intentado poner a disposición del público el enfoque de curación de datos de CLIP y han introducido el preentrenamiento de imágenes y lenguaje curado con metadatos (MetaCLIP). MetaCLIP toma datos y metadatos no organizados derivados de los conceptos de CLIP, crea un subconjunto equilibrado y produce un subconjunto equilibrado sobre la distribución de metadatos. Supera los datos de CLIP en múltiples puntos de referencia cuando se aplica al conjunto de datos CommonCrawl con 400 millones de pares de imagen y texto.

Los autores de este artículo han aplicado los siguientes principios para lograr su objetivo:

Los investigadores primero seleccionaron un nuevo conjunto de datos de 400 millones de pares de imágenes y texto recopilados de varias fuentes de Internet.
Al utilizar la coincidencia de subcadenas, alinean pares de imagen y texto con entradas de metadatos, lo que asocia efectivamente textos no estructurados con metadatos estructurados.
Luego, todos los textos asociados con cada entrada de metadatos se agrupan en listas, creando una asignación de cada entrada a los textos correspondientes.
Luego se realiza un submuestreo de la lista asociada, lo que garantiza una distribución de datos más equilibrada. haciéndolo más de uso general para el preentrenamiento.
Para formalizar el proceso de curación, introducen un algoritmo que tiene como objetivo mejorar la escalabilidad y reducir la complejidad del espacio.

MetaCLIP selecciona datos sin utilizar las imágenes directamente, pero aún mejora la alineación del contenido visual al controlar la calidad y distribución del texto. El proceso de coincidencia de subcadenas hace que sea más probable que el texto mencione las entidades en la imagen, lo que aumenta las posibilidades de encontrar el contenido visual correspondiente. Además, el equilibrio favorece las entradas de cola larga, que pueden tener un contenido visual más diverso que las entradas principales.

Para los experimentos, los investigadores utilizaron dos conjuntos de datos: uno para estimar un objetivo de 400 millones de pares de imágenes y texto y el otro para escalar el proceso de curación. Como se mencionó anteriormente, MetaCLIP supera a CLIP cuando se aplica a CommonCrawl con 400 millones de puntos de datos. Además, MetaCLIP supera a CLIP en la clasificación ImageNet de disparo cero utilizando modelos ViT de varios tamaños.

MetaCLIP logra una precisión del 70,8 % en la clasificación ImageNet de disparo cero utilizando un modelo ViT-B, mientras que CLIP logra una precisión del 68,3 %. MetaCLIP también logra una precisión del 76,2 % utilizando un modelo ViT-L, mientras que CLIP logra una precisión del 75,5 %. Escalar los datos de entrenamiento a 2,500 millones de pares de imagen-texto y utilizar el mismo presupuesto de entrenamiento y una distribución similar mejora aún más la precisión de MetaCLIP al 79,2 % para ViT-L y al 80,5 % para ViT-H. Estos son resultados sin precedentes para la clasificación ImageNet de disparo cero.

En conclusión, en un intento por comprender el proceso de curación de datos de CLIP de OpenAI para que su alto rendimiento pueda replicarse, los autores de este artículo presentaron MetaCLIP, que supera los datos de CLIP en múltiples puntos de referencia. MetaCLIP logra esto utilizando la coincidencia de subcadenas para alinear pares de imagen-texto con entradas de metadatos y submuestreando la lista asociada para garantizar una distribución de datos más equilibrada. Esto convierte a MetaCLIP en un nuevo enfoque prometedor para la curación de datos y tiene el potencial de permitir el desarrollo de algoritmos aún más efectivos.

Revisar la Papel y GitHub. Todo el crédito por esta investigación va a los investigadores de este proyecto. Además, no olvides unirte. nuestro SubReddit de 32k+ ML, Comunidad de Facebook de más de 40.000 personas, Canal de discordia, y Boletín electrónicodonde compartimos las últimas noticias sobre investigaciones de IA, interesantes proyectos de IA y más.

Si te gusta nuestro trabajo, te encantará nuestra newsletter.

también estamos en Telegrama y WhatsApp.

Arham Islam

" data-medium-file="https://www.marktechpost.com/wp-content/uploads/2022/10/Screen-Shot-2022-10-03-at-10.48.33-PM-293x300.png" data-large-file="https://www.marktechpost.com/wp-content/uploads/2022/10/Screen-Shot-2022-10-03-at-10.48.33-PM.png"/>

Soy graduado en ingeniería civil (2022) de Jamia Millia Islamia, Nueva Delhi, y tengo un gran interés en la ciencia de datos, especialmente las redes neuronales y su aplicación en diversas áreas.

🔥 Conozca Retouch4me: una familia de complementos impulsados por inteligencia artificial para retoque fotográfico

Descubriendo los secretos del éxito de los datos de CLIP: presentación de MetaCLIP para el entrenamiento previo optimizado de lenguaje e imagen

ByEquipo de 7 minutos

By Equipo de 7 minutos

Related Post

Jugar a Connect Four con Deep Q-Learning

Cómo las herramientas de inteligencia artificial generan deuda técnica en los sistemas de IoT y qué hacer al respecto

Una implementación de codificación para explorar y analizar el conjunto de datos de TaskTrove con visualización de análisis de transmisión y detección de verificador

You missed

Los bancos españoles reflexionan sobre el fin del código de seguridad de dígitos, la huella dactilar podría sustituirlo

Lindsey Vonn prevé un emotivo regreso a la Met Gala con los primeros pasos desde el devastador accidente olímpico

El cometa interestelar transporta agua como nada en nuestro sistema solar

Cinco software de diseño de etiquetas que funcionan con su flujo de trabajo de impresión existente