Los modelos de IA multimodal son herramientas poderosas capaces de comprender y generar contenido visual. Sin embargo, los enfoques existentes suelen utilizar un único codificador visual para ambas tareas, lo que conduce a un rendimiento subóptimo debido a los requisitos fundamentalmente diferentes de comprensión y generación. La comprensión requiere una abstracción semántica de alto nivel, mientras que la generación se centra en los detalles locales y la coherencia global. Este desajuste da como resultado conflictos que limitan la eficiencia y precisión generales del modelo.
Investigadores de DeepSeek-AI, la Universidad de Hong Kong y la Universidad de Pekín proponen Janus, un novedoso marco autorregresivo que unifica la comprensión y la generación multimodal mediante el empleo de dos vías de codificación visual distintas. A diferencia de los modelos anteriores que utilizan un único codificador, Janus introduce una ruta especializada para cada tarea, las cuales se procesan a través de un transformador unificado. Este diseño único alivia los conflictos inherentes a los modelos anteriores y proporciona una mayor flexibilidad, permitiendo diferentes métodos de codificación que mejor se adaptan a cada modalidad. El nombre “Janus” representa acertadamente esta dualidad, al igual que el dios romano, con dos caras que representan transiciones y coexistencia.
La arquitectura de Janus consta de dos componentes principales: un codificador de comprensión y un codificador de generación, cada uno de los cuales tiene la tarea de manejar entradas multimodales de manera diferente. Para la comprensión multimodal, Janus utiliza un enfoque de extracción de características semánticas de alta dimensión a través de SigLIP, transformando las características en una secuencia compatible con el modelo de lenguaje. Para la generación visual, Janus utiliza un tokenizador VQ que convierte datos visuales en representaciones discretas, lo que permite una síntesis de imágenes detallada. Ambas tareas son procesadas por un transformador compartido, lo que permite que el modelo funcione de forma autorregresiva. Este enfoque permite que el modelo desacople los requisitos de cada tarea visual, simplificando la implementación y mejorando la escalabilidad.
La capacitación se divide en tres etapas: adaptadores de capacitación, capacitación previa unificada y ajuste supervisado, todo lo cual mejora sus capacidades multimodales al tiempo que mantiene la coherencia entre diferentes tareas.

Los resultados experimentales demuestran que Janus supera significativamente a los modelos anteriores en varios puntos de referencia. En comprensión multimodal, Janus logró resultados impresionantes, superando a LLaVA-v1.5 y otros modelos unificados e incluso igualando o superando modelos de tareas específicas en ciertos casos. Específicamente, Janus obtuvo puntuaciones de 69,4, 63,7 y 87,0 en puntos de referencia multimodales como MMBench, SEED-Bench y POPE, respectivamente, superando a modelos más grandes como Qwen-VL-Chat (7B). En las tareas de generación visual, Janus también mostró un rendimiento superior, logrando una distancia de inicio de Fréchet (FID) de 8,53 en MSCOCO-30K, lo que demuestra una mejor coherencia con las indicaciones del usuario que los modelos de la competencia, como DALL-E 2 y SDXL. En particular, estos resultados muestran que Janus ofrece una capacidad equilibrada para comprender y generar contenido visual y, al mismo tiempo, es más eficiente en cuanto a parámetros.

En conclusión, Janus representa un gran paso adelante en el desarrollo de modelos unificados de IA multimodal al resolver los conflictos entre comprensión y generación. Su enfoque de desacoplamiento demuestra ser efectivo y eficiente, permitiendo una comprensión semántica de alta calidad junto con una generación visual detallada. Esta flexibilidad convierte a Janus en un candidato prometedor para futuros desarrollos en IA multimodal, con aplicaciones potenciales que se extienden a modalidades adicionales, como nubes de puntos o datos de audio. La extensibilidad, flexibilidad y rendimiento sólido de Janus resaltan su potencial para servir como inspiración para la próxima generación de modelos multimodales unificados.
Mira el Papel, Tarjeta modelo en cara abrazaday Página de GitHub. Todo el crédito por esta investigación va a los investigadores de este proyecto. Además, no olvides seguirnos en Gorjeo y únete a nuestro Canal de telegramas y LinkedIn Grarriba. Si te gusta nuestro trabajo, te encantará nuestro hoja informativa.. No olvides unirte a nuestro SubReddit de más de 50.000 ml.
[Upcoming Live Webinar- Oct 29, 2024] La mejor plataforma para ofrecer modelos optimizados: motor de inferencia Predibase (promocionado)
Asif Razzaq es el director ejecutivo de Marktechpost Media Inc.. Como empresario e ingeniero visionario, Asif está comprometido a aprovechar el potencial de la inteligencia artificial para el bien social. Su esfuerzo más reciente es el lanzamiento de una plataforma de medios de inteligencia artificial, Marktechpost, que se destaca por su cobertura en profundidad del aprendizaje automático y las noticias sobre aprendizaje profundo que es técnicamente sólida y fácilmente comprensible para una amplia audiencia. La plataforma cuenta con más de 2 millones de visitas mensuales, lo que ilustra su popularidad entre el público.