La formación de modelos de lenguaje grandes (LLM) que puedan manejar de forma natural diversas tareas sin grandes ajustes específicos de las tareas se ha vuelto más popular en el procesamiento del lenguaje natural (NLP). Todavía existe la necesidad de crear modelos de visión igualmente flexibles y escalables, a pesar de que estos modelos han demostrado un éxito sobresaliente en PNL. La capacidad de gestionar muchas modalidades de entrada y tareas de salida es esencial para la escalabilidad y versatilidad de Vision.
Los modelos de visión deben manejar diversas entradas sensoriales, incluidas imágenes, 3D y texto, y realizar diversas tareas. En cuanto a la visión, el entrenamiento sobre imágenes RGB con un único propósito no ha producido los mismos resultados que el modelado del lenguaje sobre texto sin formato, lo que ha llevado a capacidades multitarea en el procesamiento del lenguaje natural. En consecuencia, la formación debería utilizar una variedad de modalidades y tareas.
Los datos, la arquitectura y el propósito de la capacitación son tres factores de escalabilidad críticos a considerar al construir un modelo con los atributos deseables del modelo de base de visión. La escalabilidad de los datos se refiere a la capacidad de aprovechar más muestras de capacitación para mejorar el rendimiento. En términos arquitectónicos, la escalabilidad significa que el rendimiento mejora al aumentar el tamaño del modelo y se mantiene estable cuando se entrena en tamaños enormes. Finalmente, un objetivo de capacitación escalable debería poder abordar de manera eficiente un número cada vez mayor de modalidades sin que los costos computacionales se disparen.
Una nueva investigación realizada por el Instituto Federal Suizo de Tecnología de Lausana (EPFL) y Apple apunta a la escalabilidad en las tres áreas y al mismo tiempo ser compatible con diferentes tipos de entrada.
Para superar estos obstáculos, el equipo presenta una estrategia que implica entrenar un único codificador-decodificador Transformer integrado con un objetivo de modelado enmascarado multimodal. 4M significa “Modelado enmascarado masivamente multimodal”, lo que destaca la capacidad del enfoque para expandirse a varias modalidades variadas. Este enfoque combina las mejores características del modelado enmascarado y el aprendizaje multimodal:
- Fuertes capacidades de codificación predictiva intermodal y representaciones de escenas compartidas.
- El muestreo iterativo permite utilizar modelos para tareas generativas.
- El objetivo previo al entrenamiento es aprender efectivamente representaciones ricas.
Es importante destacar que 4M integra estas ventajas al mismo tiempo que mantiene la eficiencia en muchos procesos. Mediante el uso de tokenizadores específicos de modalidad, las modalidades se pueden convertir con diversos formatos en conjuntos o secuencias de tokens discretos, lo que permite entrenar a un solo Transformer en texto, cuadros delimitadores, imágenes o características de redes neuronales, entre otros. Esto unifica sus dominios representacionales. Dado que los codificadores y cabezales específicos de tareas ya no son necesarios, el Transformer se puede usar con cualquier modalidad y conservar el intercambio completo de parámetros gracias a este enfoque de tokenización, lo que mejora la compatibilidad, la escalabilidad y el intercambio.
Además, 4M puede entrenar de manera eficiente utilizando entradas y enmascaramiento de objetivos, aunque opera en una amplia colección de modalidades. Esto requiere elegir un pequeño subconjunto de tokens al azar de todas las modalidades para usarlos como entradas del modelo y otro pequeño subconjunto como objetivos. Para lograr un objetivo de capacitación escalable, es necesario desacoplar la cantidad de tokens de entrada y de destino de la cantidad de modalidades. Esto evita que el costo computacional aumente rápidamente a medida que aumenta el número de modalidades. Utilizando CC12M y otros conjuntos de datos monomodales o de pares de texto-imagen disponibles, crean datos de enlace alineados modalmente utilizando potentes redes de pseudoetiquetado.
Sin exigirles que incluyan anotaciones multimodales/multitarea, este método de pseudoetiquetado permite entrenar en conjuntos de datos diferentes y a gran escala. Además de sobresalir en numerosas tareas visuales importantes desde el primer momento, los modelos 4M se pueden ajustar para lograr resultados notables en tareas posteriores imprevistas y modalidades de entrada.
Además, se debe utilizar un objetivo de modelado enmascarado multimodal para entrenar modelos generativos orientables que puedan condicionarse a cualquier modalidad. Esto permite una expresión diversa de la intención del usuario y diversas tareas de edición multimodal. Luego se estudian los parámetros que afectan el rendimiento de 4M en un análisis de ablación exhaustivo. Este análisis integral, junto con la facilidad y generalización de este método, demuestra que 4M es muy prometedor para muchas tareas de visión y desarrollos futuros.
Revisar la Papel y Proyecto. Todo el crédito por esta investigación va a los investigadores de este proyecto. Además, no olvides unirte. nuestro SubReddit de 34k+ ML, 41k+ comunidad de Facebook, Canal de discordia, y Boletín electrónicodonde compartimos las últimas noticias sobre investigaciones de IA, interesantes proyectos de IA y más.
Si te gusta nuestro trabajo, te encantará nuestra newsletter.
Dhanshree Shenwai es ingeniero en informática y tiene una buena experiencia en empresas de tecnología financiera que cubren el ámbito financiero, tarjetas y pagos y banca con un gran interés en las aplicaciones de IA. Le entusiasma explorar nuevas tecnologías y avances en el mundo en evolución de hoy que facilita la vida de todos.