Apple anuncia MM1: una familia de LLM multimodales con hasta 30 mil millones de parámetros que son SoTA en métricas previas al entrenamiento y funcionan de manera competitiva después del ajuste fino

Investigaciones recientes se han centrado en la creación de modelos multimodales de lenguaje grande (MLLM) avanzados que integran a la perfección las complejidades de los datos visuales y textuales. Al profundizar en las minucias del diseño arquitectónico, la selección de datos y la transparencia metodológica, la investigación ha superado los límites de lo que los MLLM pueden lograr y respaldar exploraciones futuras. Su trabajo es particularmente notable por su enfoque integral para analizar los diversos componentes que contribuyen al éxito de estos modelos, arrojando luz sobre los roles fundamentales que desempeñan los codificadores de imágenes, los conectores visión-lenguaje y la combinación estratégica de diversos tipos de datos.

Los investigadores de Apple construyen MM1, una familia de modelos multimodales de última generación con hasta 30 mil millones de parámetros. Han tomado un camino diferente de apertura y documentación detallada, proporcionando información valiosa sobre la construcción de MLLM. Su meticulosa documentación cubre todo, desde la elección de codificadores de imágenes hasta las complejidades de conectar datos visuales con elementos lingüísticos, ofreciendo una hoja de ruta clara para construir modelos más efectivos y transparentes.

Una de las revelaciones clave del estudio es el impacto significativo de los datos previos al entrenamiento cuidadosamente seleccionados en el rendimiento del modelo. Los investigadores descubrieron que una combinación juiciosa de pares de imagen y título, documentos de imagen y texto entrelazados y datos de solo texto es esencial para lograr resultados superiores, particularmente en escenarios de aprendizaje de pocas tomas. Destaca la importancia de la diversidad en los datos de entrenamiento, lo que permite que los modelos se generalicen mejor en diferentes tareas y entornos.

El conjunto de modelos MM1 representa un importante avance, capaz de lograr un rendimiento competitivo en una amplia gama de puntos de referencia. Lo que distingue a MM1 es su gran escala y sus innovaciones arquitectónicas, incluidos modelos densos y variantes con una mezcla de expertos. Estos modelos demuestran la eficacia del enfoque de los investigadores, que combinan la formación previa a gran escala con la selección estratégica de datos para mejorar las capacidades de aprendizaje del modelo.

Las conclusiones clave de la investigación incluyen:

  • Investigadores de Apple dirigieron un estudio exhaustivo sobre MLLM, centrándose en estrategias de selección de datos y arquitectura.
  • Se priorizó la transparencia y la documentación detallada para facilitar futuras investigaciones.
  • Una combinación equilibrada de diversos datos previos al entrenamiento fue crucial para el rendimiento del modelo.
  • Se presentó MM1, una nueva familia de modelos con hasta 30 mil millones de parámetros, que muestra un rendimiento superior en todos los puntos de referencia.
  • Los hallazgos del estudio enfatizan la importancia de las opciones metodológicas para avanzar en el desarrollo de MLLM.

En conclusión, esta investigación representa un avance significativo en el campo de los MLLM, ofreciendo nuevos conocimientos sobre la construcción óptima de estos modelos complejos. Al resaltar la importancia de la transparencia, la documentación detallada y la selección estratégica de datos, el estudio allana el camino para futuras innovaciones. La introducción de MM1 subraya el potencial de los MLLM bien diseñados para establecer nuevos estándares en la comprensión multimodal. Los principios y hallazgos descritos en este estudio desbloquearán todo el potencial de los modelos de lenguaje multimodal.


Revisar la Papel. Todo el crédito por esta investigación va a los investigadores de este proyecto. Además, no olvides seguirnos en Gorjeo. Únete a nuestro Canal de telegramas, Canal de discordiay LinkedIn Grarriba.

Si te gusta nuestro trabajo, te encantará nuestro Boletin informativo..

No olvides unirte a nuestro SubReddit de 38k+ ML


Hola, mi nombre es Adnan Hassan. Soy pasante de consultoría en Marktechpost y pronto seré aprendiz de gestión en American Express. Actualmente estoy cursando una doble titulación en el Instituto Indio de Tecnología, Kharagpur. Me apasiona la tecnología y quiero crear nuevos productos que marquen la diferencia.