Screenshot 2024 05 26 At 1.37.16 Am.png

Los investigadores de Google Cloud AI han presentado LANISTR para abordar los desafíos de manejar de manera efectiva y eficiente datos estructurados y no estructurados dentro de un marco. En el aprendizaje automático, el manejo de datos multimodales (que comprenden lenguaje, imágenes y datos estructurados) es cada vez más crucial. El desafío clave es la cuestión de la falta de modalidades en datos estructurados, sin etiquetar y a gran escala, como tablas y series de tiempo. Los métodos tradicionales a menudo tienen problemas cuando faltan uno o más tipos de datos, lo que lleva a un rendimiento subóptimo del modelo.

Los métodos actuales para el preentrenamiento de datos multimodales generalmente dependen de la disponibilidad de todas las modalidades durante el entrenamiento y la inferencia, lo que a menudo no es factible en escenarios del mundo real. Estos métodos incluyen varias formas de técnicas de fusión temprana y tardía, donde se combinan datos de diferentes modalidades ya sea a nivel de característica o de decisión. Sin embargo, estos enfoques no son adecuados para situaciones en las que algunas modalidades pueden faltar por completo o estar incompletas.

LANISTR (Transformador de lenguaje, imagen y datos estructurados) de Google, un novedoso marco de preentrenamiento, aprovecha estrategias de enmascaramiento unimodales y multimodales para crear un objetivo de preentrenamiento sólido que pueda manejar las modalidades faltantes de manera efectiva. El marco se basa en un innovador objetivo de enmascaramiento multimodal basado en similitudes, que le permite aprender de los datos disponibles mientras hace conjeturas fundamentadas sobre las modalidades que faltan. El marco tiene como objetivo mejorar la adaptabilidad y generalización de los modelos multimodales, particularmente en escenarios con datos etiquetados limitados.

El marco LANISTR emplea enmascaramiento unimodal, donde partes de los datos dentro de cada modalidad se enmascaran durante el entrenamiento. Esto obliga al modelo a aprender relaciones contextuales dentro de la modalidad. Por ejemplo, en datos de texto, ciertas palabras pueden estar enmascaradas y el modelo aprende a predecirlas en función de las palabras circundantes. En las imágenes, ciertos parches pueden estar enmascarados y el modelo aprende a inferirlos a partir de las partes visibles.

El enmascaramiento multimodal amplía este concepto al enmascarar modalidades enteras. Por ejemplo, en un conjunto de datos que contiene texto, imágenes y datos estructurados, una o dos modalidades pueden quedar completamente enmascaradas al azar durante el entrenamiento. Luego se entrena el modelo para predecir las modalidades enmascaradas a partir de las disponibles. Aquí es donde entra en juego el objetivo basado en la similitud. El modelo se guía por una medida de similitud, asegurando que las representaciones generadas para las modalidades faltantes sean coherentes con los datos disponibles. La eficacia de LANISTR se evaluó en dos conjuntos de datos del mundo real: el conjunto de datos de Amazon Product Review del sector minorista y el conjunto de datos MIMIC-IV del sector de la salud.

LANISTR mostró eficacia en escenarios fuera de distribución, donde el modelo encontró distribuciones de datos que no se observaron durante el entrenamiento. Esta solidez es crucial en aplicaciones del mundo real, donde la variabilidad de los datos es un desafío común. LANISTR logró mejoras significativas en precisión y generalización incluso con la disponibilidad de datos etiquetados.

En conclusión, LANISTR aborda un problema crítico en el campo del aprendizaje automático multimodal: el desafío de la falta de modalidades en conjuntos de datos sin etiquetar a gran escala. Al emplear una combinación novedosa de estrategias de enmascaramiento unimodales y multimodales, junto con un objetivo de enmascaramiento multimodal basado en similitudes, LANISTR permite un preentrenamiento sólido y eficiente. El experimento de evaluación demuestra que LANISTR puede aprender eficazmente a partir de datos incompletos y generalizar bien a distribuciones de datos nuevas e invisibles, lo que la convierte en una herramienta valiosa para promover el aprendizaje multimodal.


Revisar la Papel y Blog. Todo el crédito por esta investigación va a los investigadores de este proyecto. Además, no olvides seguirnos en Gorjeo. Únete a nuestro Canal de telegramas, Canal de discordiay LinkedIn Grarriba.

Si te gusta nuestro trabajo, te encantará nuestro Boletin informativo..

No olvides unirte a nuestro SubReddit de 42k+ ML


Pragati Jhunjhunwala es pasante de consultoría en MarktechPost. Actualmente está cursando su B.Tech en el Instituto Indio de Tecnología (IIT), Kharagpur. Es una entusiasta de la tecnología y tiene un gran interés en el alcance del software y las aplicaciones de ciencia de datos. Siempre está leyendo sobre los avances en diferentes campos de la IA y el ML.