Los modelos multimodales representan un avance significativo en la inteligencia artificial, ya que permiten que los sistemas procesen y comprendan datos de múltiples fuentes, como texto e imágenes. Estos modelos son esenciales para aplicaciones como subtítulos de imágenes, respuesta a preguntas visuales y asistencia en robótica, donde la comprensión de las entradas visuales y lingüísticas es crucial. Con los avances en los modelos de visión y lenguaje (VLM), los sistemas de IA pueden generar narrativas descriptivas de imágenes, responder preguntas basadas en información visual y realizar tareas como el reconocimiento de objetos. Sin embargo, muchos de los modelos multimodales de mayor rendimiento en la actualidad se construyen utilizando datos patentados, lo que limita su accesibilidad a la comunidad de investigación más amplia y sofoca la innovación en la investigación de IA de acceso abierto.
Uno de los problemas críticos que enfrenta el desarrollo de modelos multimodales abiertos es su dependencia de datos generados por sistemas propietarios. Los sistemas cerrados, como GPT-4V y Claude 3.5, han creado datos sintéticos de alta calidad que ayudan a los modelos a lograr resultados impresionantes, pero estos datos no están disponibles para todos. Como resultado, los investigadores se enfrentan a barreras cuando intentan replicar o mejorar estos modelos, y la comunidad científica necesita una base para construir dichos modelos desde cero utilizando conjuntos de datos completamente abiertos. Este problema ha estancado el progreso de la investigación abierta en el campo de la IA, ya que los investigadores no pueden acceder a los componentes fundamentales necesarios para crear modelos multimodales de última generación de forma independiente.
Los métodos que se utilizan habitualmente para entrenar modelos multimodales dependen en gran medida de la destilación de sistemas propietarios. Muchos modelos de lenguaje de visión, por ejemplo, utilizan datos como ShareGPT4V, que se generan con GPT-4V, para entrenar sus sistemas. Si bien son muy eficaces, estos datos sintéticos hacen que estos modelos dependan de sistemas cerrados. Se han desarrollado modelos de ponderación abierta, pero a menudo funcionan significativamente peor que sus contrapartes propietarios. Además, estos modelos están limitados por su acceso limitado a conjuntos de datos de alta calidad, lo que dificulta cerrar la brecha de rendimiento con los sistemas cerrados. Por lo tanto, los modelos abiertos a menudo quedan rezagados en comparación con los modelos más avanzados de empresas con acceso a datos propietarios.
Los investigadores del Instituto Allen de IA y la Universidad de Washington presentaron el Molmo Familia de modelos de visión y lenguaje. Esta nueva familia de modelos representa un gran avance en el campo al proporcionar una solución de datos y pesos totalmente abiertos. Molmo no depende de datos sintéticos de sistemas propietarios, lo que lo convierte en una herramienta totalmente accesible para la comunidad de investigación de IA. Los investigadores desarrollaron un nuevo conjunto de datos, PixMoque consta de leyendas de imágenes detalladas creadas íntegramente por anotadores humanos. Este conjunto de datos permite entrenar los modelos de Molmo con datos naturales de alta calidad, lo que los hace competitivos con los mejores modelos del sector.
La primera versión incluye varios componentes clave:
- Molécula E-1B: Construido utilizando el modelo de lenguaje grande (LLM) de mezcla de expertos OLMoE-1B-7B totalmente abierto.
- Molécula-7B-O: Utiliza el LLM OLMo-7B-1024 totalmente abierto, cuyo lanzamiento previo está previsto para octubre de 2024, y cuyo lanzamiento público completo está previsto para más adelante.
- Molécula-7B-D: Este modelo de demostración aprovecha el LLM Qwen2 7B de peso abierto.
- Molmo-72B: El modelo de mayor rendimiento de la familia, que utiliza el LLM Qwen2 72B de peso abierto.
Los modelos de Molmo se entrenan utilizando un proceso simple pero potente que combina un codificador de visión previamente entrenado con un modelo de lenguaje. El codificador de visión se basa en el modelo ViT-L/14 CLIP de OpenAI, que proporciona una tokenización de imágenes confiable. El conjunto de datos PixMo de Molmo, que contiene más de 712 000 imágenes y aproximadamente 1,3 millones de subtítulos, es la base para entrenar los modelos para generar descripciones de imágenes densas y detalladas. A diferencia de los métodos anteriores que pedían a los anotadores que escribieran subtítulos, el conjunto de datos PixMo se basa en descripciones habladas. Se les pidió a los anotadores que describieran cada detalle de la imagen durante 60 a 90 segundos. Este enfoque innovador permitió la recopilación de datos más descriptivos en menos tiempo y proporcionó anotaciones de imágenes de alta calidad, evitando la dependencia de datos sintéticos de VLM cerrados.
El modelo Molmo-72B, el más avanzado de la familia, ha superado a muchos sistemas propietarios líderes, incluidos Gemini 1.5 y Claude 3.5 Sonnet, en 11 pruebas académicas. También ocupó el segundo lugar en una evaluación humana con 15.000 pares de imagen y texto, solo ligeramente por detrás de GPT-4o. El modelo logró las mejores puntuaciones en pruebas como AndroidControl, donde alcanzó una precisión del 88,7% para tareas de bajo nivel y del 69,0% para tareas de alto nivel. El modelo MolmoE-1B, otro de la familia, pudo igualar de cerca el rendimiento de GPT-4V, lo que lo convierte en un modelo de peso abierto altamente eficiente y competitivo. El amplio éxito de los modelos Molmo tanto en evaluaciones académicas como de usuarios demuestra el potencial de los VLM abiertos para competir con los sistemas propietarios e incluso superarlos.

En conclusión, el desarrollo de la familia Molmo ofrece a la comunidad de investigación una alternativa potente y de acceso abierto a los sistemas cerrados, ofreciendo ponderaciones, conjuntos de datos y código fuente totalmente abiertos. Al introducir técnicas innovadoras de recopilación de datos y optimizar la arquitectura del modelo, los investigadores del Instituto Allen de IA han creado con éxito una familia de modelos que funcionan a la par de los gigantes propietarios del campo y, en algunos casos, los superan. El lanzamiento de estos modelos, junto con los conjuntos de datos PixMo asociados, allana el camino para la innovación y la colaboración futuras en el desarrollo de modelos de lenguaje de visión, lo que garantiza que la comunidad científica en general tenga las herramientas necesarias para seguir ampliando los límites de la IA.
Echa un vistazo a la Modelos en la página HF, Manifestacióny DetallesTodo el crédito por esta investigación corresponde a los investigadores de este proyecto. Además, no olvides seguirnos en Gorjeo y únete a nuestro Canal de Telegram y LinkedIn Gr¡Arriba!. Si te gusta nuestro trabajo, te encantará nuestro hoja informativa..
No olvides unirte a nuestro Subreddit de más de 52 000 millones de usuarios
Asif Razzaq es el director ejecutivo de Marktechpost Media Inc. Como ingeniero y emprendedor visionario, Asif está comprometido con aprovechar el potencial de la inteligencia artificial para el bien social. Su iniciativa más reciente es el lanzamiento de una plataforma de medios de inteligencia artificial, Marktechpost, que se destaca por su cobertura en profundidad de noticias sobre aprendizaje automático y aprendizaje profundo que es técnicamente sólida y fácilmente comprensible para una amplia audiencia. La plataforma cuenta con más de 2 millones de visitas mensuales, lo que ilustra su popularidad entre el público.