Después del éxito de los modelos de idiomas grandes (LLM), la investigación actual se extiende más allá de la comprensión basada en el texto a las tareas de razonamiento multimodal. Estas tareas integran la visión y el lenguaje, que es esencial para la inteligencia general artificial (AGI). Los puntos de referencia cognitivos como PuzzleVQA y AlgopuzzleVQA evalúan la capacidad de IA para procesar información visual abstracta y razonamiento algorítmico. Incluso con los avances, los LLM luchan con el razonamiento multimodal, particularmente el reconocimiento de patrones y la resolución de problemas espaciales. Los altos costos computacionales agravan estos desafíos.

Evaluaciones previas se basaron en puntos de referencia simbólicos como ARC-AGI y evaluaciones visuales como las matrices progresivas de Raven. Sin embargo, estos no desafían adecuadamente la capacidad de AI para procesar entradas multimodales. Recientemente, se han introducido conjuntos de datos como PuzzleVQA y AlgopuzzleVQA para evaluar el razonamiento visual abstracto y la resolución de problemas algorítmicos. Estos conjuntos de datos requieren modelos que integran la percepción visual, la deducción lógica y el razonamiento estructurado. Mientras que los modelos anteriores, como GPT-4-Turbo y GPT-4O, demostraron mejoras, aún enfrentaban limitaciones en el razonamiento abstracto y la interpretación multimodal.

Investigadores de la Universidad Tecnológica y Diseño de Singapur (SUTD) introdujeron una evaluación sistemática del GPT-[n] y o-[n] Serie de modelos sobre tareas multimodales de resolución de rompecabezas. Su estudio examinó cómo las capacidades de razonamiento evolucionaron en diferentes generaciones de modelos. La investigación tuvo como objetivo identificar brechas en la percepción de la IA, el razonamiento abstracto y las habilidades de resolución de problemas. El equipo comparó el rendimiento de modelos como GPT-4-Turbo, GPT-4O y O1 en los conjuntos de datos PuzzleVQA y AlgopuzzleVQA, incluidos los rompecabezas visuales abstractos y los desafíos de razonamiento algorítmico.

Los investigadores realizaron una evaluación estructurada utilizando dos conjuntos de datos principales:

  1. PuzzleVQA: PuzzleVQA se centra en el razonamiento visual abstracto y requiere modelos para reconocer patrones en números, formas, colores y tamaños.
  2. AlgoPuzzleVQA: Algopuzzlevqa presenta tareas algorítmicas de resolución de problemas que exigen deducción lógica y razonamiento computacional.

La evaluación se llevó a cabo utilizando formatos de preguntas de opción múltiple y abierta. El estudio empleó una cadena de pensamiento de disparo cero (COT) para el razonamiento y analizó la caída de rendimiento al cambiar de opción múltiple a respuestas abiertas. Los modelos también se probaron en condiciones donde la percepción visual y el razonamiento inductivo se proporcionaron por separado para diagnosticar debilidades específicas.

El estudio observó mejoras constantes en las capacidades de razonamiento en diferentes generaciones de modelos. GPT-4O mostró un mejor rendimiento que GPT-4-Turbo, mientras que O1 logró los avances más notables, particularmente en las tareas de razonamiento algorítmico. Sin embargo, estas ganancias llegaron con un fuerte aumento en el costo computacional. A pesar del progreso general, los modelos de IA aún lucharon con las tareas que requerían una interpretación visual precisa, como reconocer las formas faltantes o descifrar patrones abstractos. Si bien O1 funcionó bien en el razonamiento numérico, tuvo dificultades para manejar rompecabezas basados ​​en formas. La diferencia de precisión entre las tareas de elección múltiple y el final indicó una fuerte dependencia de las indicaciones de respuesta. Además, la percepción siguió siendo un desafío importante en todos los modelos, con una precisión mejorada significativamente cuando se proporcionaron detalles visuales explícitos.

En un resumen rápido, el trabajo se puede resumir en algunos puntos detallados:

  1. El estudio observó una tendencia ascendente significativa en las capacidades de razonamiento de GPT-4-TURBO a GPT-4O y O1. Mientras que GPT-4O mostró ganancias moderadas, la transición a O1 dio como resultado mejoras notables, pero se produjo en un aumento de 750X en el costo computacional en comparación con GPT-4O.
  2. A través de PuzzleVQA, O1 logró una precisión promedio de 79.2% en configuraciones de opción múltiple, superando el 60.6% de GPT-4O y el 54.2% de GPT-4-Turbo. Sin embargo, en tareas abiertas, todos los modelos exhibieron caídas de rendimiento, con O1 con una puntuación de 66.3%, GPT-4O a 46.8%y GPT-4-TURBO a 38.6%.
  3. En AlgoPuzzleVQA, O1 mejoró sustancialmente en los modelos anteriores, particularmente en rompecabezas que requieren una deducción numérica y espacial. O1 obtuvo un 55.3%, en comparación con el 43.6% de GPT-4O y el 36.5% de GPT-4-Turbo en tareas de opción múltiple. Sin embargo, su precisión disminuyó en un 23.1% en tareas abiertas.
  4. El estudio identificó la percepción como la limitación principal en todos los modelos. Inyectar detalles visuales explícitos mejoró la precisión en un 22%–30%, lo que indica una dependencia de las ayudas de percepción externa. La guía de razonamiento inductivo aumentó aún más el rendimiento en un 6%–19%, particularmente en el reconocimiento de patrones numéricos y espaciales.
  5. O1 se destacó en el razonamiento numérico pero luchó con los rompecabezas basados ​​en la forma, mostrando una caída del 4.5% en comparación con las tareas de reconocimiento de forma GPT-4O. Además, funcionó bien en la resolución estructurada de problemas, pero enfrentó desafíos en escenarios abiertos que requieren una deducción independiente.

Verificar el Papel y Página de Github. Todo el crédito por esta investigación va a los investigadores de este proyecto. Además, no olvides seguirnos Gorjeo y únete a nuestro Canal de telegrama y LinkedIn GRsalpicar. No olvides unirte a nuestro 75k+ ml de subreddit.

🚨 Plataforma de IA de código abierto recomendada: ‘Intellagent es un marco de múltiples agentes de código abierto para evaluar el complejo sistema de IA conversacional’ (Promocionado)


Sana Hassan, una pasante de consultoría en MarktechPost y estudiante de doble grado en IIT Madras, le apasiona la aplicación de tecnología e IA para abordar los desafíos del mundo real. Con un gran interés en resolver problemas prácticos, aporta una nueva perspectiva a la intersección de la IA y las soluciones de la vida real.

Por automata