Investigadores de Google y el MIT presentan Synclr: un novedoso enfoque de inteligencia artificial para aprender representaciones visuales exclusivamente a partir de imágenes sintéticas y subtítulos sintéticos sin datos reales

Los datos sin procesar y frecuentemente sin etiquetar se pueden recuperar y organizar mediante el aprendizaje de representación. La capacidad del modelo para desarrollar una buena representación depende de la cantidad, calidad y diversidad de los datos. Al hacerlo, el modelo refleja la inteligencia colectiva inherente a los datos. La salida es directamente proporcional a la entrada. Como era de esperar, los algoritmos de aprendizaje de representaciones visuales más eficaces hoy en día dependen de conjuntos de datos masivos del mundo real. Mientras tanto, la recopilación de datos reales tiene sus propios desafíos. Es factible recopilar grandes cantidades de datos sin filtrar ya que no es costoso. Agregar datos no seleccionados tiene menos impacto en escalas de datos grandes, lo que indica un comportamiento de escala deficiente para el aprendizaje de representación autosupervisado utilizando este enfoque. También es posible recopilar datos seleccionados a menor escala, aunque los modelos entrenados con este método solo pueden manejar trabajos muy específicos.

Para reducir la carga financiera, una nueva investigación realizada por Google Research y MIT CSAIL investiga si se pueden lograr conjuntos de datos seleccionados a gran escala que puedan entrenar representaciones visuales de última generación utilizando datos sintéticos derivados de modelos generativos disponibles comercialmente. Aprender a partir de modelos describe este enfoque, que difiere del aprendizaje directo a partir de datos. El equipo aprovecha los nuevos controles proporcionados por las variables latentes, las variables condicionantes y los hiperparámetros de los modelos para seleccionar datos en el método propuesto, uno de los numerosos beneficios de utilizar modelos como fuente de datos para construir conjuntos de entrenamiento a gran escala. Como los modelos son menos voluminosos que los datos, son más fáciles de almacenar y compartir. Además, los modelos pueden generar infinitas muestras de datos, aunque con una variabilidad limitada.

En este estudio, los investigadores repensan el nivel de detalle en las clases visuales mediante el uso de modelos generativos. Por ejemplo, considere las cuatro imágenes de los siguientes comandos: “Un lindo golden retriever sentado en una casa hecha de sushi” y “Un golden retriever, con gafas de sol y un sombrero de playa, anda en bicicleta”. Al separar las incrustaciones de varias imágenes sin considerar explícitamente la misma semántica, los métodos tradicionales autosupervisados ​​como SimCLR tratarán cada imagen como una clase separada. Sin embargo, los algoritmos de aprendizaje supervisado (como SupCE) tratarán todas estas imágenes como pertenecientes a la misma clase (como “golden retriever”).

Dado que recopilar varias imágenes descritas por un título determinado no es trivial, particularmente cuando se aumenta el número de títulos, este nivel de granularidad es un desafío para extraer datos reales. Por otro lado, esta capacidad es intrínseca a los modelos de difusión de texto a imagen; Con el mismo título que un conjunto de entrenamiento y diferentes entradas de ruido, estos modelos pueden generar muchas imágenes que coincidan exactamente con el título.

Los hallazgos del trabajo muestran que, en comparación con SimCLR y el entrenamiento supervisado, la granularidad a nivel de subtítulos es superior. El hecho de que esta descripción de clase visual sea fácilmente extensible es una ventaja adicional. El aumento de clases (o datos) en línea permite hipotéticamente ampliar a clases ilimitadas, a diferencia de ImageNet-1k/21k, donde se utiliza un número fijo de clases. El sistema propuesto consta de tres etapas:

  1. Sintetizar una gran colección de pies de foto es la etapa inicial. Utilizando ejemplos de traducción de palabras a subtítulos, el equipo ha desarrollado un método escalable que aprovecha la capacidad de aprendizaje en contexto de los modelos de lenguaje grandes (LLM).
  2. El siguiente paso es crear muchas imágenes y títulos sintéticos utilizando un modelo de difusión de texto a imagen. De esta forma se genera un conjunto de datos de 600 millones de fotografías.
  3. Finalmente, entrenan modelos para representaciones visuales utilizando modelado de imágenes enmascaradas y aprendizaje contrastivo multipositivo.

Los investigadores comparan el CLIP de OpenAI con respecto a la precisión de sondeo lineal superior en ImageNet-1K con el modelo ViT-B al 80,7% y el modelo ViT-L al 83,0%, ambos entrenados con entrenamiento previo SynCLR. En tareas de clasificación detallada, SynCLR logra resultados comparables a los de los modelos DINO v2 derivados de un modelo ViT-g previamente entrenado, superando CLIP para ViT-B en un 3,3 % y ViT-L en un 1,5 %. Con respecto a la segmentación semántica en ADE20k, SynCLR supera a MAE previamente entrenado en ImageNet en 6,2 y 4,1 en mIoU para ViT-B y ViT-L, respectivamente, en la misma configuración. Esto demuestra que SynCLR tiene una gran capacidad para transferir tareas de predicción densas, muy parecidas a DINO v2, que también requiere entrenamiento en imágenes con una resolución de 518 × 518, algo que SynCLR no posee.

El equipo destaca que existen varias formas de mejorar los conjuntos de subtítulos. Por ejemplo, utilizan LLM más sofisticados, mejoran las proporciones de muestra entre distintos conceptos y amplían la biblioteca de ejemplos en contexto. Una forma de mejorar el proceso de aprendizaje es agregar una fase de entrenamiento de alta resolución o una etapa intermedia de ajuste fino del IN-21k después de extraer el conocimiento de un modelo más grande. También sugieren que, junto con la integración de SwiGLU y LayerScale, mejores procedimientos de inicialización del modelo pueden generar beneficios arquitectónicos. Sin embargo, sugieren estas áreas para futuras investigaciones debido a los recursos limitados y las limitaciones de este artículo, que no pretendía lograr las métricas más altas posibles.


Revisar la Papel y GitHub. Todo el crédito por esta investigación va a los investigadores de este proyecto. Además, no olvides unirte. nuestro SubReddit de más de 35.000 ml, 41k+ comunidad de Facebook, Canal de discordia, LinkedIn Grarriba, Gorjeoy Boletín electrónicodonde compartimos las últimas noticias sobre investigaciones de IA, interesantes proyectos de IA y más.

Si te gusta nuestro trabajo, te encantará nuestra newsletter.


Dhanshree Shenwai es ingeniero en informática y tiene una buena experiencia en empresas de tecnología financiera que cubren el ámbito financiero, tarjetas y pagos y banca con un gran interés en las aplicaciones de IA. Le entusiasma explorar nuevas tecnologías y avances en el mundo en evolución de hoy que facilita la vida de todos.