Ming-Lite-Uni: un marco de IA de código abierto diseñado para unificar el texto y la visión a través de una estructura multimodal autorregresiva

La IA multimodal evoluciona rápidamente para crear sistemas que puedan comprender, generar y responder utilizando múltiples tipos de datos dentro de una sola conversación o tarea, como texto, imágenes e incluso video o audio. Se espera que estos sistemas funcionen a través de diversos formatos de interacción, lo que permite una comunicación más perfecta de Human-AI. Con los usuarios cada vez más atractivos de IA para tareas como el subtítulos de imágenes, la edición de fotos basadas en texto y las transferencias de estilo, se ha vuelto importante que estos modelos procesen entradas e interactúen a través de modalidades en tiempo real. La frontera de la investigación en este dominio se centra en fusionar capacidades una vez manejadas por modelos separados en sistemas unificados que pueden funcionar con fluidez y precisión.

Un obstáculo importante en esta área proviene de la desalineación entre la comprensión semántica basada en el lenguaje y la fidelidad visual requerida en la síntesis o edición de imágenes. Cuando los modelos separados manejan diferentes modalidades, las salidas a menudo se vuelven inconsistentes, lo que lleva a una mala coherencia o inexactitudes en tareas que requieren interpretación y generación. El modelo visual puede sobresalir en la reproducción de una imagen, pero no puede comprender las instrucciones matizadas detrás de ella. En contraste, el modelo de idioma podría entender el aviso pero no puede dar forma visualmente. También existe una preocupación de escalabilidad cuando los modelos están entrenados de forma aislada; Este enfoque exige recursos de calcular significativos y esfuerzos de reentrenamiento para cada dominio. La incapacidad de vincular sin problemas la visión y el lenguaje en una experiencia coherente e interactiva sigue siendo uno de los problemas fundamentales para avanzar en los sistemas inteligentes.

En los recientes intentos de cerrar esta brecha, los investigadores han combinado arquitecturas con codificadores visuales fijos y decodificadores separados que funcionan a través de técnicas basadas en difusión. Herramientas como TokenFlow y Janus integran modelos de lenguaje basados ​​en tokens con backends de generación de imágenes, pero generalmente enfatizan la precisión de los píxeles en la profundidad semántica. Estos enfoques pueden producir contenido visualmente rico, pero a menudo se pierden los matices contextuales de la entrada del usuario. Otros, como GPT-4O, se han movido hacia las capacidades nativas de generación de imágenes, pero aún operan con limitaciones en una comprensión profundamente integrada. La fricción radica en traducir el texto abstracto provoca en imágenes significativas y conscientes del contexto en una interacción fluida sin dividir la tubería en partes desarticuladas.

Investigadores de la IA de inclusión, Ant Group introdujo Ming-lite-uniun marco de código abierto diseñado para unificar el texto y la visión a través de una estructura multimodal autorregresiva. El sistema presenta un modelo autorregresivo nativo construido sobre un modelo de lenguaje grande fijo y un generador de imagen de difusión ajustada. Este diseño se basa en dos marcos centrales: metaquerías y M2-OMNI. Ming-Lite-UNI presenta un componente innovador de tokens de aprendizaje a escala múltiple, que actúan como unidades visuales interpretables, y una estrategia de alineación multiescala correspondiente para mantener la coherencia entre varias escalas de imagen. Los investigadores proporcionaron todos los pesos e implementación del modelo abiertamente para apoyar la investigación de la comunidad, posicionando a Ming-Lite-Uni como un prototipo que se mueve hacia la inteligencia artificial general.

El mecanismo central detrás del modelo implica comprimir entradas visuales en secuencias de token estructuradas a través de múltiples escalas, como 4 × 4, 8 × 8 y 16 × 16 parches de imagen, cada uno que representan diferentes niveles de detalle, desde el diseño hasta las texturas. Estos tokens se procesan junto con los tokens de texto utilizando un transformador autorregresivo grande. Cada nivel de resolución está marcado con tokens de inicio y finalización únicos y codificaciones posicionales personalizadas asignadas. El modelo emplea una estrategia de alineación de representación a múltiples escala que alinea las características intermedias y de salida a través de una pérdida media de error al cuadrado, lo que garantiza la consistencia entre las capas. Esta técnica aumenta la calidad de la reconstrucción de imágenes en más de 2 dB en PSNR y mejora las puntuaciones de evaluación de generación (Gineval) en un 1,5%. A diferencia de otros sistemas que se vuelven a entrenar todos los componentes, Ming-Lite-Uni mantiene el modelo de lenguaje congelado y solo ajusta el generador de imágenes, lo que permite actualizaciones más rápidas y una escala más eficiente.

El sistema se probó en varias tareas multimodales, incluida la generación de texto a imagen, la transferencia de estilo y la edición detallada de imágenes utilizando instrucciones como “hacer que las ovejas usen gafas de sol pequeñas” o “eliminar dos de las flores en la imagen”. El modelo manejó estas tareas con alta fidelidad y fluidez contextual. Mantuvo una fuerte calidad visual incluso cuando se les dio indicaciones abstractas o estilísticas, como el “estilo de Hayao Miyazaki” o “Adorable 3D”. El conjunto de entrenamiento abarcó más de 2,25 mil millones de muestras, combinando laion-5b (1.55b), Coyo (62m) y cero (151m), suplementado con muestras filtradas de Midjourney (5.4m), Wukong (35m) y otras fuentes web (441m). Además, incorporó conjuntos de datos de grano fino para la evaluación estética, incluidas AVA (255k muestras), TAD66K (66K), AESMMIT (21.9K) y APDD (10K), lo que mejoró la capacidad del modelo para generar resultados visualmente atractivos de acuerdo con las normas estéticas humanas.

El modelo combina robustez semántica con generación de imágenes de alta resolución en una sola pasada. Logra esto alineando las representaciones de imagen y texto a nivel de token a través de escalas, en lugar de depender de una división fija del codificador del codificador. El enfoque permite que los modelos autorregresivos realicen tareas de edición complejas con orientación contextual, que anteriormente era difícil de lograr. La pérdida de flujo y los marcadores límite específicos de escala admiten una mejor interacción entre el transformador y las capas de difusión. En general, el modelo tiene un raro equilibrio entre la comprensión del lenguaje y la salida visual, posicionándolo como un paso significativo hacia los sistemas de IA multimodales prácticos.

Varias conclusiones clave de la investigación sobre Ming-Lite-Uni:

  • Ming-Lite-Uni introdujo una arquitectura unificada para tareas de visión y lenguaje utilizando modelado autorregresivo.
  • Las entradas visuales se codifican utilizando tokens de aprendizaje a escala múltiple (4 × 4, 8 × 8, 16 × 16 resoluciones).
  • El sistema mantiene un modelo de lenguaje congelado y entrena un generador de imágenes basado en difusión separado.
  • Una alineación de representación a múltiples escala mejora la coherencia, produciendo una mejora de más de 2 dB en PSNR y un aumento del 1.5% en Gineval.
  • Los datos de capacitación incluyen más de 2.25 mil millones de muestras de fuentes públicas y seleccionadas.
  • Las tareas manejadas incluyen generación de texto a imagen, edición de imágenes y preguntas y respuestas visuales, todas procesadas con una fuerte fluidez contextual.
  • La integración de datos de puntuación estética ayuda a generar resultados visualmente agradables consistentes con las preferencias humanas.
  • Los pesos e implementación del modelo son de origen abierto, fomentando la replicación y la extensión por parte de la comunidad.

Mira el Papel, Modelo en la cara abrazada y Página de Github. Además, no olvides seguirnos Gorjeo.

Aquí hay una breve descripción de lo que estamos construyendo en MarkTechPost:


Sana Hassan, una pasante de consultoría en MarktechPost y estudiante de doble grado en IIT Madras, le apasiona aplicar tecnología e IA para abordar los desafíos del mundo real. Con un gran interés en resolver problemas prácticos, aporta una nueva perspectiva a la intersección de la IA y las soluciones de la vida real.