Screenshot 2024 06 18 At 12.43.47 Am.png

Los modelos de lenguajes grandes (LLM) han logrado avances significativos en el manejo de múltiples modalidades y tareas, pero aún necesitan mejorar su capacidad para procesar diversas entradas y realizar una amplia gama de tareas de manera efectiva. El principal desafío radica en desarrollar una única red neuronal capaz de manejar un amplio espectro de tareas y modalidades manteniendo un alto rendimiento en todos los dominios. Los modelos actuales, como 4M y UnifiedIO, son prometedores, pero están limitados por el número limitado de modalidades y tareas en las que están capacitados. Esta limitación dificulta su aplicación práctica en escenarios que requieren sistemas de IA verdaderamente versátiles y adaptables.

Los intentos recientes de resolver desafíos de aprendizaje multitarea en visión han evolucionado desde la combinación de tareas de visión densa hasta la integración de numerosas tareas en modelos multimodales unificados. Métodos como Gato, OFA, Pix2Seq, UnifiedIO y 4M transforman varias modalidades en tokens discretos y entrenan a Transformers utilizando secuencias o objetivos de modelado enmascarados. Algunos enfoques permiten una amplia gama de tareas mediante el entrenamiento conjunto en conjuntos de datos separados, mientras que otros, como 4M, utilizan pseudoetiquetado para predicciones de cualquier modalidad en conjuntos de datos alineados. El modelado enmascarado ha demostrado ser eficaz en el aprendizaje de representaciones intermodales, crucial para el aprendizaje multimodal, y permite aplicaciones generativas cuando se combina con la tokenización.

Investigadores de Apple y el Instituto Federal Suizo de Tecnología de Lausana (EPFL) basan su método en el esquema de preentrenamiento de enmascaramiento multimodal, ampliando significativamente sus capacidades mediante el entrenamiento en un conjunto diverso de modalidades. El enfoque incorpora más de 20 modalidades, incluidos segmentos SAM, poses humanas en 3D, bordes Canny, paletas de colores y varios metadatos e incrustaciones. Al utilizar tokenizadores discretos de modalidades específicas, el método codifica diversas entradas en un formato unificado, lo que permite entrenar un único modelo en múltiples modalidades sin degradación del rendimiento. Este enfoque unificado amplía las capacidades existentes en varios ejes clave, incluido un mayor soporte de modalidad, una mayor diversidad en los tipos de datos, técnicas efectivas de tokenización y un tamaño de modelo escalado. El modelo resultante demuestra nuevas posibilidades para la interacción multimodal, como la recuperación intermodal y la generación altamente orientable en todas las modalidades de entrenamiento.

Este método adopta el esquema de preentrenamiento 4M, ampliándolo para manejar un conjunto diverso de modalidades. Transforma todas las modalidades en secuencias de tokens discretos utilizando tokenizadores específicos de la modalidad. El objetivo del entrenamiento implica predecir un subconjunto de tokens a partir de otro, utilizando selecciones aleatorias de todas las modalidades como entradas y objetivos. Utiliza pseudoetiquetado para crear un gran conjunto de datos previo al entrenamiento con múltiples modalidades alineadas. El método incorpora una amplia gama de modalidades, incluidas RGB, geométricas, semánticas, bordes, mapas de características, metadatos y texto. La tokenización juega un papel crucial en la unificación del espacio de representación a través de estas diversas modalidades. Esta unificación permite el entrenamiento con un único objetivo previo al entrenamiento, mejora la estabilidad del entrenamiento, permite compartir parámetros completos y elimina la necesidad de componentes específicos de la tarea. Se emplean tres tipos principales de tokenizadores: tokenizadores basados ​​en ViT para modalidades similares a imágenes, tokenizadores MLP para poses humanas e incrustaciones globales, y un tokenizador de WordPieza para texto y otros datos estructurados. Este enfoque integral de tokenización permite que el modelo maneje una amplia gama de modalidades de manera eficiente, reduciendo la complejidad computacional y permitiendo tareas generativas en múltiples dominios.

El modelo 4M-21 demuestra una amplia gama de capacidades, incluida la generación multimodal orientable, la recuperación multimodal y un sólido rendimiento listo para usar en diversas tareas de visión. Puede predecir cualquier modalidad de entrenamiento mediante la decodificación iterativa de tokens, lo que permite una generación detallada y multimodal con una mejor comprensión del texto. El modelo realiza recuperaciones multimodales al predecir incorporaciones globales desde cualquier modalidad de entrada, lo que permite capacidades de recuperación versátiles. En evaluaciones listas para usar, 4M-21 logra un desempeño competitivo en tareas como estimación de superficie normal, estimación de profundidad, segmentación semántica, segmentación de instancias, estimación de pose humana 3D y recuperación de imágenes. A menudo iguala o supera a los modelos especializados y pseudoetiquetadores y, al mismo tiempo, es un modelo único para todas las tareas. La variante 4M-21 XL, en particular, demuestra un sólido rendimiento en múltiples modalidades sin sacrificar la capacidad en ningún dominio único.

Los investigadores examinan las características de escala del preentrenamiento de modelos cualquiera en un gran conjunto de modalidades, comparando tres tamaños de modelos: B, L y XL. Evaluación de escenarios de aprendizaje de transferencia unimodal (RGB) y multimodal (RGB + Profundidad). En transferencias unimodales, 4M-21 mantiene el rendimiento en tareas similares a las siete modalidades originales al tiempo que muestra resultados mejorados en tareas complejas como la detección de objetos 3D. El modelo demuestra un mejor rendimiento con un mayor tamaño, lo que indica tendencias de escala prometedoras. Para transferencias multimodales, 4M-21 utiliza efectivamente entradas de profundidad opcionales, superando significativamente las líneas de base. El estudio revela que la capacitación en un conjunto más amplio de modalidades no compromete el desempeño en tareas familiares y puede mejorar las capacidades en otras nuevas, especialmente a medida que aumenta el tamaño del modelo.

Esta investigación demuestra el entrenamiento exitoso de un modelo cualquiera en un conjunto diverso de 21 modalidades y tareas. Este logro es posible mediante el empleo de tokenizadores específicos de modalidad para asignar todas las modalidades a conjuntos discretos de tokens, junto con un objetivo de entrenamiento enmascarado multimodal. El modelo se escala a tres mil millones de parámetros en múltiples conjuntos de datos sin comprometer el rendimiento en comparación con modelos más especializados. El modelo unificado resultante exhibe sólidas capacidades listas para usar y abre nuevas vías para la interacción, generación y recuperación multimodal. Sin embargo, el estudio reconoce ciertas limitaciones y áreas para trabajo futuro. Estos incluyen la necesidad de explorar más a fondo las capacidades emergentes y de transferencia, que permanecen en gran medida sin explotar en comparación con los modelos lingüísticos.


Revisar la Papel, Proyecto, y GitHub. Todo el crédito por esta investigación va a los investigadores de este proyecto. Además, no olvides seguirnos en Gorjeo.

Únete a nuestro Canal de telegramas y LinkedIn Grarriba.

Si te gusta nuestro trabajo, te encantará nuestro Boletin informativo..

No olvides unirte a nuestro SubReddit de 44k+ ML


Asjad es consultor interno en Marktechpost. Está cursando B.Tech en ingeniería mecánica en el Instituto Indio de Tecnología, Kharagpur. Asjad es un entusiasta del aprendizaje automático y el aprendizaje profundo que siempre está investigando las aplicaciones del aprendizaje automático en la atención médica.