Investigadores de Google y el MIT presentan StableRep: revolucionando el entrenamiento de IA con imágenes sintéticas para mejorar el aprendizaje automático

Los investigadores han explorado el potencial del uso de imágenes sintéticas generadas por modelos de texto a imagen para aprender representaciones visuales y allanar el camino para un aprendizaje automático más eficiente y con menos sesgos. Este nuevo estudio de investigadores del MIT se centra en la difusión estable y demuestra que el entrenamiento de métodos autosupervisados ​​en imágenes sintéticas puede igualar o incluso superar el rendimiento de sus homólogos de imágenes reales cuando el modelo generativo está configurado correctamente. El enfoque propuesto, denominado StableRep, introduce un método de aprendizaje contrastivo multipositivo al tratar múltiples imágenes generadas a partir del mismo mensaje de texto como positivas entre sí. StableRep se entrena únicamente con imágenes sintéticas y supera a métodos de última generación como SimCLR y CLIP en conjuntos de datos a gran escala, logrando incluso una mayor precisión que CLIP entrenado con 50 millones de imágenes reales cuando se combina con supervisión del lenguaje.

El enfoque StableRep propuesto introduce un método novedoso para el aprendizaje de la representación al promover la invariancia intra-títulos. Al considerar varias imágenes generadas a partir del mismo mensaje de texto como positivas entre sí, StableRep emplea una pérdida de contraste multipositiva. Los resultados muestran que StableRep logra una precisión lineal notable en ImageNet, superando a otros métodos autosupervisados ​​como SimCLR y CLIP. El éxito del enfoque se atribuye a la capacidad de ejercer un mayor control sobre el muestreo en datos sintéticos, aprovechando factores como la escala de orientación en Difusión estable y las indicaciones de texto. Además, los modelos generativos tienen el potencial de generalizarse más allá de sus datos de entrenamiento, proporcionando un conjunto de entrenamiento sintético más rico en comparación con los datos reales por sí solos.

En conclusión, la investigación demuestra la sorprendente eficacia de entrenar métodos autosupervisados ​​en imágenes sintéticas generadas por Stable Diffusion. El enfoque StableRep, con su método de aprendizaje contrastivo multipositivo, muestra un rendimiento superior en el aprendizaje de representación en comparación con los métodos de última generación que utilizan imágenes reales. El estudio abre posibilidades para simplificar la recopilación de datos a través de modelos generativos de texto a imagen, presentando una alternativa rentable a la adquisición de conjuntos de datos grandes y diversos. Sin embargo, se deben abordar desafíos como la falta de coincidencia semántica y los sesgos en los datos sintéticos, y se debe considerar el impacto potencial del uso de datos web no seleccionados para entrenar modelos generativos.


Revisar la Papel y GitHub. Todo el crédito por esta investigación va a los investigadores de este proyecto. Además, no olvides unirte. nuestro SubReddit de 33k+ ML, 41k+ comunidad de Facebook, Canal de discordia, y Boletín electrónicodonde compartimos las últimas noticias sobre investigaciones de IA, interesantes proyectos de IA y más.

Si te gusta nuestro trabajo, te encantará nuestra newsletter.


Pragati Jhunjhunwala es pasante de consultoría en MarktechPost. Actualmente está cursando su B.Tech en el Instituto Indio de Tecnología (IIT), Kharagpur. Es una entusiasta de la tecnología y tiene un gran interés en el alcance del software y las aplicaciones de ciencia de datos. Siempre está leyendo sobre los avances en diferentes campos de la IA y el ML.