En una investigación reciente, se desarrolló un transformador de difusión de texto a imagen llamado Hunyuan-DiT con el objetivo de comprender indicaciones de texto en inglés y chino de una manera sutil. En la creación de Hunyuan-DiT se han involucrado varios elementos y procedimientos esenciales para garantizar una excelente producción de imágenes y una comprensión del lenguaje detallada.
Los componentes principales de Hunyuan-DiT son los siguientes.
- Estructura transformadora: la arquitectura transformadora de Hunyuan-DiT ha sido diseñada para maximizar la capacidad del modelo para producir imágenes a partir de descripciones textuales. Esto incluye mejorar la capacidad del modelo para procesar entradas lingüísticas complejas y asegurarse de que pueda registrar datos precisos.
- Codificación bilingüe y multilingüe: la capacidad de Hunyuan-DiT para leer correctamente las indicaciones depende en gran medida del codificador de texto. El modelo utiliza los puntos fuertes de ambos codificadores, un CLIP bilingüe que puede manejar tanto inglés como chino, y un codificador T5 multilingüe para mejorar la comprensión y el manejo del contexto.
- Codificación posicional mejorada: los algoritmos de codificación posicional de Hunyuan-DiT se han ajustado para manejar la naturaleza secuencial del texto y las características espaciales de las imágenes de manera más eficiente. Esto ayuda al modelo a asignar correctamente los tokens a los atributos de imagen apropiados y a mantener la secuencia de los tokens.
El equipo ha desarrollado una extensa línea de datos que consta de los siguientes componentes para mejorar y respaldar las capacidades de Hunyuan-DiT.
- Curación y recopilación de datos: ensamblaje de un conjunto de datos considerable y variado de pares de texto e imagen.
- Aumento y filtrado de datos: agregar más ejemplos al conjunto de datos y eliminar datos innecesarios o de baja calidad.
- Optimización iterativa del modelo: actualizar y mejorar continuamente el rendimiento del modelo en función de datos nuevos y comentarios de los usuarios mediante el empleo de la técnica del “convoy de datos”.
Para mejorar la precisión de la comprensión del lenguaje del modelo, el equipo ha entrenado especialmente un MLLM para mejorar los títulos correspondientes a las fotografías. Al utilizar conocimiento contextual, este modelo produce subtítulos precisos y detallados, mejorando la calidad de las imágenes que se producen.
Hunyuan-DiT facilita diálogos de múltiples turnos que permiten la generación de imágenes interactivas. Esto implica que, a lo largo de múltiples iteraciones de participación, las personas pueden ofrecer opiniones y mejorar las imágenes generadas, produciendo resultados más precisos y agradables.
Para evaluar Hunyuan-DiT, el equipo ha creado una estricta metodología de evaluación con la participación de más de 50 evaluadores calificados. Esta técnica mide la claridad del sujeto, la calidad visual, la falta de artefactos de IA, la coherencia entre texto e imagen y otros elementos de las imágenes creadas. En comparación con otros modelos de código abierto, las evaluaciones mostraron que Hunyuan-DiT ofrece un rendimiento de última generación en la creación de imágenes en chino. Es excelente para crear imágenes nítidas y semánticamente correctas en respuesta a señales chinas.
En conclusión, Hunyuan-DiT es un gran avance en la generación de texto a imagen, especialmente para mensajes en chino. Proporciona un rendimiento excepcional en la producción de imágenes detalladas y contextualmente precisas mediante la construcción cuidadosa de su arquitectura transformadora, codificadores de texto y codificación posicional, así como al establecer una canalización de datos confiable. Su capacidad para diálogos interactivos de varios turnos aumenta aún más su utilidad, convirtiéndola en una herramienta eficaz para una variedad de usos.
Revisar la Papel y GitHub. Todo el crédito por esta investigación va a los investigadores de este proyecto. Además, no olvides seguirnos en Gorjeo. Únete a nuestro Canal de telegramas, Canal de discordiay LinkedIn Grarriba.
Si te gusta nuestro trabajo, te encantará nuestro Boletin informativo..
No olvides unirte a nuestro SubReddit de 42k+ ML
Tanya Malhotra es estudiante de último año de la Universidad de Estudios de Petróleo y Energía, Dehradun, y cursa BTech en Ingeniería en Ciencias de la Computación con especialización en Inteligencia Artificial y Aprendizaje Automático.
Es una entusiasta de la Ciencia de Datos con buen pensamiento analítico y crítico, junto con un ardiente interés en adquirir nuevas habilidades, liderar grupos y gestionar el trabajo de manera organizada.