Los modelos básicos multimodales son cada vez más relevantes en la inteligencia artificial, ya que permiten que los sistemas procesen e integren múltiples formas de datos, como imágenes, texto y audio, para abordar diversas tareas. Sin embargo, estos sistemas enfrentan desafíos importantes. Los modelos existentes a menudo tienen dificultades para generalizarse en una amplia variedad de modalidades y tareas debido a su dependencia de conjuntos de datos y modalidades limitados. Además, la arquitectura de muchos modelos actuales sufre una transferencia negativa, donde el rendimiento en determinadas tareas se deteriora a medida que se añaden nuevas modalidades. Estos desafíos obstaculizan la escalabilidad y la capacidad de ofrecer resultados consistentes, lo que subraya la necesidad de marcos que puedan unificar diversas representaciones de datos y al mismo tiempo preservar el desempeño de las tareas.
Investigadores de EPFL han presentado 4M, un marco de código abierto diseñado para entrenar modelos básicos multimodales versátiles y escalables que se extienden más allá del lenguaje. 4M aborda las limitaciones de los enfoques existentes al permitir predicciones en diversas modalidades, integrando datos de fuentes como imágenes, texto, características semánticas y metadatos geométricos. A diferencia de los marcos tradicionales que atienden a un conjunto limitado de tareas, 4M se expande para admitir 21 modalidades, tres veces más que muchos de sus predecesores.
Una innovación central de 4M es el uso de tokenización discreta, que convierte diversas modalidades en una secuencia unificada de tokens. Esta representación unificada permite que el modelo aproveche una arquitectura basada en Transformer para el entrenamiento conjunto en múltiples tipos de datos. Al simplificar el proceso de capacitación y eliminar la necesidad de componentes específicos de tareas, 4M logra un equilibrio entre escalabilidad y eficiencia. Como proyecto de código abierto, es accesible a la comunidad de investigación en general, lo que fomenta la colaboración y un mayor desarrollo.
Detalles técnicos y ventajas
El marco 4M utiliza una arquitectura Transformer codificador-decodificador diseñada para modelado enmascarado multimodal. Durante el entrenamiento, las modalidades se tokenizan mediante codificadores especializados adaptados a sus tipos de datos. Por ejemplo, los datos de imágenes emplean VAE espaciales discretos, mientras que el texto y los metadatos estructurados se procesan mediante un tokenizador de WordPieza. Este enfoque coherente de la tokenización garantiza una integración perfecta de diversos tipos de datos.
Una característica notable de 4M es su capacidad para la generación de datos controlables y detallados. Al condicionar los resultados en modalidades específicas, como poses humanas o metadatos, el modelo proporciona un alto grado de control sobre el contenido generado. Además, las capacidades de recuperación intermodal de 4M permiten consultas en una modalidad (por ejemplo, texto) para recuperar información relevante en otra (por ejemplo, imágenes).
La escalabilidad del marco es otro punto fuerte. Entrenado en grandes conjuntos de datos como COYO700M y CC12M, 4M incorpora más de 500 millones de muestras y escala hasta tres mil millones de parámetros. Al comprimir datos densos en secuencias de tokens dispersas, optimiza la memoria y la eficiencia computacional, lo que la convierte en una opción práctica para tareas multimodales complejas.
Resultados y conocimientos
Las capacidades de 4M son evidentes en su desempeño en diversas tareas. En las evaluaciones, demostró un desempeño sólido en 21 modalidades sin comprometer los resultados en comparación con los modelos especializados. Por ejemplo, el modelo XL de 4M logró una puntuación mIoU de segmentación semántica de 48,1, igualando o superando los puntos de referencia y manejando tres veces más tareas que los modelos anteriores.
El marco también destaca en el aprendizaje por transferencia. Las pruebas en tareas posteriores, como la detección de objetos 3D y la segmentación semántica multimodal, muestran que los codificadores previamente entrenados de 4M mantienen una alta precisión tanto en tareas familiares como novedosas. Estos resultados resaltan su potencial para aplicaciones en áreas como sistemas autónomos y atención médica, donde la integración de datos multimodales es fundamental.
Conclusión
El marco 4M marca un importante paso adelante en el desarrollo de modelos de cimentaciones multimodales. Al abordar los desafíos de escalabilidad e integración intermodal, la contribución de EPFL sienta las bases para sistemas de IA más flexibles y eficientes. Su lanzamiento de código abierto alienta a la comunidad de investigación a aprovechar este trabajo, ampliando los límites de lo que la IA multimodal puede lograr. A medida que el campo evolucione, marcos como 4M desempeñarán un papel crucial para permitir nuevas aplicaciones y mejorar las capacidades de la IA.
Verificar el Papel, Página del proyecto, Página de GitHub, Manifestacióny Blog. Todo el crédito por esta investigación va a los investigadores de este proyecto. Además, no olvides seguirnos en Gorjeo y únete a nuestro Canal de telegramas y LinkedIn Grarriba. No olvides unirte a nuestro SubReddit de más de 60.000 ml.
🚨 PRÓXIMO SEMINARIO WEB GRATUITO SOBRE IA (15 DE ENERO DE 2025): Aumente la precisión del LLM con datos sintéticos e inteligencia de evaluación–Únase a este seminario web para obtener información práctica para mejorar el rendimiento y la precisión del modelo LLM y, al mismo tiempo, proteger la privacidad de los datos..
Asif Razzaq es el director ejecutivo de Marktechpost Media Inc.. Como empresario e ingeniero visionario, Asif está comprometido a aprovechar el potencial de la inteligencia artificial para el bien social. Su esfuerzo más reciente es el lanzamiento de una plataforma de medios de inteligencia artificial, Marktechpost, que se destaca por su cobertura en profundidad del aprendizaje automático y las noticias sobre aprendizaje profundo que es técnicamente sólida y fácilmente comprensible para una amplia audiencia. La plataforma cuenta con más de 2 millones de visitas mensuales, lo que ilustra su popularidad entre el público.