Screenshot 2024 06 12 At 9.41.25 Pm.png

La IA generativa ha logrado avances notables al revolucionar campos como la generación de imágenes y videos, impulsada por algoritmos, arquitecturas y datos innovadores. Sin embargo, la rápida proliferación de modelos generativos ha puesto de relieve una brecha crítica: la ausencia de métricas de evaluación confiables. Las evaluaciones automáticas actuales, como FID, CLIP y FVD, a menudo no logran capturar la calidad matizada y la satisfacción del usuario asociadas con los resultados generativos. Si bien las tecnologías de generación y manipulación de imágenes han avanzado rápidamente, permitiendo aplicaciones en dominios como el arte, la mejora visual y las imágenes médicas, navegar por la multitud de modelos disponibles y evaluar su rendimiento sigue siendo un desafío. Las métricas tradicionales como PSNR, SSIM, LPIPS y FID brindan información valiosa pero específica sobre aspectos precisos de la generación de contenido visual, y a menudo no logran evaluar de manera integral el rendimiento general del modelo, especialmente en lo que respecta a cualidades subjetivas como la estética y la satisfacción del usuario.

Se han propuesto numerosos métodos para evaluar el rendimiento de los modelos generativos multimodales en diversos aspectos. Para la generación de imágenes, métodos como CLIPScore miden la alineación del texto, mientras que IS, FID, PSNR, SSIM y LPIPS evalúan la fidelidad de la imagen y la similitud perceptiva. Trabajos recientes utilizan modelos multimodales de lenguaje grande (MLLM) como jueces, como T2I-CompBench que usa miniGPT4, TIFA que adapta la respuesta visual a preguntas y VIEScore que informa el potencial de los MLLM para reemplazar a los jueces humanos. Para la generación de video, métricas como FVD miden la coherencia y la calidad del cuadro, mientras que CLIPSIM utiliza modelos de similitud de imagen y texto. Sin embargo, estas métricas automáticas todavía van por detrás de las preferencias humanas, y la baja correlación genera dudas sobre su confiabilidad. Las plataformas de evaluación de IA generativa tienen como objetivo clasificar sistemáticamente los modelos, con conjuntos de pruebas comparativas como T2ICompBench, HEIM, ImagenHub para imágenes y VBench, EvalCrafter para videos. A pesar de su funcionalidad, estos puntos de referencia se basan en métricas basadas en modelos menos confiables que la evaluación humana. Han surgido escenarios modelo para recopilar preferencias humanas directas para la clasificación, pero ningún ámbito existente se centra específicamente en modelos de IA generativa.

Los investigadores de la Universidad de Waterloo han presentado GenAI-Arena, una plataforma sólida diseñada para permitir una evaluación justa de los modelos de IA generativa. Inspirado en implementaciones exitosas en otros dominios, GenAI-Arena ofrece una plataforma dinámica e interactiva donde los usuarios pueden generar imágenes, compararlas una al lado de la otra y votar por sus modelos preferidos. Esta plataforma simplifica el proceso de comparar diferentes modelos y proporciona un sistema de clasificación que refleja las preferencias humanas, ofreciendo una evaluación más holística de las capacidades del modelo. GenAI-Arena es la primera plataforma de evaluación con capacidades de evaluación integrales en múltiples propiedades, que admite una amplia gama de tareas que incluyen generación de texto a imagen, edición de imágenes guiada por texto y generación de texto a video, junto con un proceso de votación pública. para garantizar la transparencia del etiquetado. Los votos se utilizan para evaluar la capacidad de evaluación de los evaluadores de MLLM. La plataforma destaca por su versatilidad y transparencia. Ha recopilado más de 6000 votos para tres tareas generativas multimodales y ha construido tablas de clasificación para cada tarea, identificando los modelos de última generación.

GenAI-Arena admite tareas de generación de texto a imagen, edición de imágenes y generación de texto a video con funciones como votación anónima en paralelo, campo de batalla, pestaña de generación directa y tablas de clasificación. La plataforma estandariza la inferencia de modelos con hiperparámetros fijos y solicita una comparación justa. Impone una votación imparcial a través del anonimato, donde los usuarios votan sus preferencias entre resultados generados de forma anónima, calculando clasificaciones Elo. Esta arquitectura permite una evaluación democrática y precisa del rendimiento del modelo en múltiples tareas.

Los investigadores informan su clasificación en la tabla de clasificación al momento de escribir este artículo. Para la generación de imágenes con 4443 votos recopilados, los modelos Playground V2.5 y Playground V2 de Playground.ai encabezan la clasificación, siguiendo la misma arquitectura SDXL pero entrenados en un conjunto de datos privado, superando significativamente al SDXL clasificado en el séptimo lugar, lo que resalta la importancia de los datos de entrenamiento. . StableCascade que utiliza una arquitectura en cascada eficiente ocupa el siguiente lugar, superando a SDXL a pesar de solo el 10% del costo de capacitación de SD-2.1, lo que subraya la importancia de la arquitectura de difusión. Para la edición de imágenes con 1083 votos, MagicBrush, InFEdit, CosXLEdit e InstructPix2Pix que permiten la edición localizada tienen una clasificación más alta, mientras que los métodos más antiguos como Prompt-to-Prompt, que producen imágenes completamente diferentes, tienen una clasificación más baja a pesar de los resultados de alta calidad. En texto a video con 1568 votos, T2VTurbo lidera con el puntaje Elo más alto como el modelo más efectivo, seguido de cerca por StableVideoDiffusion, VideoCrafter2, AnimateDiff y otros como LaVie, OpenSora, ModelScope con rendimiento decreciente.

En este estudio, se presenta GenAI-Arena, una plataforma abierta impulsada por la votación de la comunidad para clasificar modelos generativos en tareas de conversión de texto a imagen, edición de imágenes y texto a video en función de las preferencias de transparencia del usuario. Se utilizaron más de 6.000 votos recopilados entre febrero y junio de 2024 para compilar tablas de clasificación de Elo, identificando modelos de última generación, mientras que el análisis reveló posibles sesgos. Los datos de preferencia humana de alta calidad se publicaron como GenAI-Bench, lo que expone la escasa correlación de los modelos de lenguaje multimodal existentes con los juicios humanos sobre la calidad del contenido generado y otros aspectos.


Revisar la Papel y Página HF. Todo el crédito por esta investigación va a los investigadores de este proyecto. Además, no olvides seguirnos en Gorjeo. Únete a nuestro Canal de telegramas, Canal de discordiay LinkedIn Grarriba.

Si te gusta nuestro trabajo, te encantará nuestro Boletin informativo..

No olvides unirte a nuestro SubReddit de 44k+ ML


Asjad es consultor interno en Marktechpost. Está cursando B.Tech en ingeniería mecánica en el Instituto Indio de Tecnología, Kharagpur. Asjad es un entusiasta del aprendizaje automático y el aprendizaje profundo que siempre está investigando las aplicaciones del aprendizaje automático en la atención médica.