Screenshot 2024 04 06 At 11.40.47 Pm.png

Los campos del procesamiento del lenguaje natural (NLP) y la generación del lenguaje natural (NLG) han experimentado transformaciones asombrosas desde la introducción de los modelos de lenguaje grande (LLM) y los modelos básicos multimodales. Estos modelos, que incluyen GPT4V, Claude y Gemini, combinan codificadores visuales y LLM.

Los modelos básicos actuales han mostrado un rendimiento notable cuando se presentan con entradas de solo texto o combinadas de imagen y texto. Sin embargo, surge una pregunta importante: ¿cambiarán sus capacidades según el tipo de insumo que reciben?

Para responder a esta pregunta, un equipo de investigadores presentó IsoBench, un conjunto de datos de referencia que contiene desafíos de cuatro dominios importantes: juegos, ciencia, matemáticas y algoritmos. Hay varias representaciones isomórficas para cada problema en IsoBench, incluidos formatos textuales, matemáticos y gráficos. Debido a esta diversidad, las disparidades de desempeño resultantes de diferentes formas de representación pueden examinarse a fondo.

El equipo ha compartido que IsoBench se puede utilizar como herramienta para diagnosticar discrepancias en el rendimiento del modelo causadas por la representación de entrada proporcionando comentarios detallados. Se observa un patrón recurrente en una variedad de modelos de fundamentos, ya que los modelos muestran predilección por las representaciones textuales sobre el mismo tema. Por ejemplo, Claude-3 Opus obtiene 28,7 puntos menos cuando se le dan fotografías en lugar de texto cuando se le evalúa en todas las cuestiones en IsoBench. Cuando se les presentan entradas de imágenes en lugar de texto, GPT-4 Turbo y Gemini Pro exhiben disminuciones de rendimiento de 18,7 y 14,9 puntos, respectivamente.

Se han propuesto dos estrategias de activación, IsoCombination e IsoScratchPad, para mitigar este sesgo informado y mejorar el rendimiento del modelo. IsoScratchPad se centra en permitir traducciones entre múltiples formularios de entrada, mientras que IsoCombination considera combinaciones de diversas representaciones de entrada.

Al utilizar las ventajas de diversas modalidades de entrada, estas estrategias pueden reducir las disparidades de rendimiento entre los modelos básicos. El equipo ha demostrado a través de experimentos que IsoCombination e IsoScratchPad mejoran el rendimiento del modelo, presentando direcciones intrigantes para futuros estudios y avances en sistemas de IA multimodales.

El equipo ha resumido sus principales contribuciones de la siguiente manera.

  1. Se ha introducido IsoBench, un extenso conjunto de datos de prueba con 1.630 muestras que abarca una serie de temas, incluidos ajedrez, física, química y matemáticas discretas y aplicadas. Las evaluaciones integrales del desempeño multimodal son posibles gracias a las numerosas representaciones de entrada isomórficas que tiene cada muestra, incluidos formatos textuales específicos del dominio y formatos visuales.
  1. Utilizando IsoBench, el equipo evaluó ocho modelos básicos conocidos y encontró un patrón recurrente: los modelos multimodales superan a las indicaciones basadas en imágenes cuando se trata de indicaciones de solo texto.
  1. El equipo también sugirió dos métodos para cerrar las brechas de desempeño entre varias modalidades de entrada. Mientras que IsoScratchPad (IsoSP) traduce entradas visuales en representaciones textuales durante la inferencia, IsoCombination (IsoCB) mezcla modalidades de entrada.
  1. Basándose en su investigación, el equipo descubrió que, en algunos casos, IsoCB e IsoSP pueden mejorar el rendimiento de los modelos de base multimodal en casi diez puntos porcentuales. Al utilizar estas estrategias, se reduce el sesgo observado hacia las representaciones textuales y el modelo funciona mejor con una variedad de modalidades de entrada.

Revisar la Papel y Proyecto. Todo el crédito por esta investigación va a los investigadores de este proyecto. Además, no olvides seguirnos en Gorjeo. Únete a nuestro Canal de telegramas, Canal de discordiay LinkedIn Grarriba.

Si te gusta nuestro trabajo, te encantará nuestro Boletin informativo..

No olvides unirte a nuestro SubReddit de 39k+ ML


Tanya Malhotra es estudiante de último año de la Universidad de Estudios de Petróleo y Energía, Dehradun, y cursa BTech en Ingeniería Informática con especialización en Inteligencia Artificial y Aprendizaje Automático.
Es una entusiasta de la Ciencia de Datos con buen pensamiento analítico y crítico, junto con un ardiente interés en adquirir nuevas habilidades, liderar grupos y gestionar el trabajo de manera organizada.