Yandex libera alquimista: un conjunto de datos de ajuste fino supervisado compacto para mejorar la calidad del modelo T2I de texto a imagen

A pesar del progreso sustancial en la generación de texto a imagen (T2I) provocado por modelos como Dall-E 3, Imagen 3 y la difusión estable 3, alcanzando una calidad de producción consistente, tanto en términos estéticos como de alineación, sigue siendo un desafío persistente. Si bien el pretratamiento a gran escala proporciona conocimiento general, es insuficiente para lograr una alta calidad y alineación estética. El ajuste fino (SFT) supervisado sirve como un paso crítico posterior a la capacitación, pero su efectividad depende en gran medida de la calidad del conjunto de datos de ajuste fino.

Los conjuntos de datos públicos actuales utilizados en SFT se dirigen a dominios visuales estrechos (p. Ej., Anime o géneros de arte específicos) o dependen de filtros heurísticos básicos sobre datos a escala web. La curación dirigida por humanos es costosa, no escalable y con frecuencia no identifica muestras que generan las mayores mejoras. Además, los modelos T2I recientes utilizan conjuntos de datos patentados internos con una transparencia mínima, limitando la reproducibilidad de los resultados y la desaceleración del progreso colectivo en el campo.

Enfoque: una curación del conjunto de datos guiado por modelo

Para mitigar estos problemas, Yandex ha lanzado Alquimista, Un conjunto de datos SFT de uso general disponible públicamente compuesto por 3.350 pares de texto de imagen cuidadosamente seleccionados. A diferencia de los conjuntos de datos convencionales, Alchemist se construye utilizando una metodología novedosa que aprovecha un modelo de difusión previamente capacitado para que actúe como un estimador de calidad de la muestra. Este enfoque permite la selección de datos de entrenamiento con un alto impacto en el rendimiento generativo del modelo sin depender del etiquetado humano subjetivo o la puntuación estética simplista.

Alquimista está diseñado para mejorar la calidad de salida de los modelos T2I a través del ajuste fino objetivo. El lanzamiento también incluye versiones ajustadas de cinco modelos de difusión estables disponibles públicamente. El conjunto de datos y los modelos son accesibles en Cara abrazada bajo una licencia abierta. Más sobre la metodología y los experimentos: en el preimpresión .

Diseño técnico: Filtrado de tuberías y características del conjunto de datos

La construcción de alquimistas implica una tubería de filtrado de varias etapas a partir de ~ 10 mil millones de imágenes de origen web. La tubería está estructurada de la siguiente manera:

  1. Filtrado inicial: Eliminación del contenido de NSFW y imágenes de baja resolución (umbral> 1024 × 1024 píxeles).
  2. Filtrado de calidad gruesa: Aplicación de clasificadores para excluir imágenes con artefactos de compresión, desenfoque de movimiento, marcas de agua y otros defectos. Estos clasificadores fueron entrenados en conjuntos de datos de evaluación de calidad de imagen estándar como Koniq-10k y Pipal.
  3. Deduplicación y poda basada en IQA: Las características similares a SIFT se utilizan para agrupar imágenes similares, conservando solo las de alta calidad. Las imágenes se califican aún más utilizando el modelo TOPIQ, asegurando la retención de muestras limpias.
  4. Selección basada en difusión: Una contribución clave es el uso de las activaciones de atención cruzada de un modelo de difusión previamente entrenado para clasificar las imágenes. Una función de puntuación identifica muestras que activan fuertemente las características asociadas con la complejidad visual, el atractivo estético y la riqueza estilística. Esto permite la selección de muestras con mayor probabilidad de mejorar el rendimiento del modelo aguas abajo.
  5. Leyenda Reescritura: Las imágenes seleccionadas finales se vuelven a tomar utilizando un modelo de lenguaje de visión ajustado para producir descripciones textuales de estilo inmediato. Este paso garantiza una mejor alineación y usabilidad en los flujos de trabajo SFT.

A través de estudios de ablación, los autores determinan que aumentar el tamaño del conjunto de datos más allá de 3,350 (p. Ej., 7k o 19k muestras) da como resultado una menor calidad de modelos ajustados, reforzando el valor de los datos específicos de alta calidad sobre el volumen sin procesar.

Resultados en múltiples modelos T2I

La efectividad de Alchemist se evaluó en cinco variantes de difusión estables: SD1.5, SD2.1, SDXL, Medio SD3.5 y SD3.5 grandes. Cada modelo se ajustó con tres conjuntos de datos: (i) el conjunto de datos de alquimistas, (ii) un subconjunto de tamaño coincidente de Laion-Aesthetics V2, y (iii) sus respectivas líneas de base.

Evaluación humana: Anotadores expertos realizaron evaluaciones de lado a lado en cuatro criterios: relevancia de imagen de texto, calidad estética, complejidad de imágenes y fidelidad. Los modelos ajustados al alquimista mostraron mejoras estadísticamente significativas en las puntuaciones estéticas y de complejidad, a menudo superando las líneas de base y las versiones sintonizadas con el Estética de Laion por márgenes de 12-20%. Es importante destacar que la relevancia de la imagen del texto se mantuvo estable, lo que sugiere que la alineación inmediata no se vio afectada negativamente.

Métricas automatizadas: A través de métricas como FD-Dinov2, Clip Score, Imagereward y HPS-V2, modelos ajustados por alquimistas generalmente obtuvieron puntajes más altos que sus contrapartes. En particular, las mejoras fueron más consistentes en comparación con los modelos basados ​​en LAION de tamaño que con los modelos de referencia.

Ablación del tamaño del conjunto de datos: El ajuste fino con variantes más grandes de alquimistas (muestras de 7k y 19k) condujo a un rendimiento más bajo, subrayando ese filtrado más estricto y una calidad más alta por muestra es más impactante que el tamaño del conjunto de datos.

Yandex ha utilizado el conjunto de datos para capacitar a su modelo generativo de texto a imagen, Yandexart v2.5, y planea continuar aprovechándolo para futuras actualizaciones de modelos.

Conclusión

Alquimista Proporciona una vía bien definida y empíricamente validada para mejorar la calidad de la generación de texto a imagen a través del ajuste fino supervisado. El enfoque enfatiza la calidad de la muestra sobre la escala e introduce una metodología replicable para la construcción del conjunto de datos sin dependencia de las herramientas propietarias.

Si bien las mejoras son más notables en atributos perceptivos como la estética y la complejidad de las imágenes, el marco también destaca las compensaciones que surgen en la fidelidad, particularmente para modelos base más nuevos ya optimizados a través de SFT interno. Sin embargo, Alchemist establece un nuevo estándar para los conjuntos de datos SFT de uso general y ofrece un recurso valioso para investigadores y desarrolladores que trabajan para avanzar en la calidad de salida de los modelos de visión generativa.


Mira el Papel aquí y Alquimista Conjunto de datos en la cara abrazada. Gracias al equipo de Yandex por el liderazgo/ recursos de pensamiento para este artículo.


Asif Razzaq es el CEO de MarktechPost Media Inc .. Como empresario e ingeniero visionario, ASIF se compromete a aprovechar el potencial de la inteligencia artificial para el bien social. Su esfuerzo más reciente es el lanzamiento de una plataforma de medios de inteligencia artificial, MarktechPost, que se destaca por su cobertura profunda de noticias de aprendizaje automático y de aprendizaje profundo que es técnicamente sólido y fácilmente comprensible por una audiencia amplia. La plataforma cuenta con más de 2 millones de vistas mensuales, ilustrando su popularidad entre el público.