Screenshot 2024 09 04 At 7.36.02 Pm.png

Para comprender las interacciones sociales en entornos complejos del mundo real, es necesario un razonamiento mental profundo para inferir los estados mentales subyacentes que impulsan estas interacciones, lo que se conoce como teoría de la mente (ToM). Las interacciones sociales suelen ser multimodales e implican acciones, conversaciones y comportamientos pasados. Para que la IA se involucre de manera eficaz en entornos humanos, debe comprender estos estados mentales y sus interrelaciones. A pesar de los avances en la teoría de la mente de las máquinas, los puntos de referencia actuales se centran principalmente en los estados mentales individuales y carecen de conjuntos de datos multimodales para evaluar la teoría de la mente de múltiples agentes. Esta brecha obstaculiza el desarrollo de sistemas de IA capaces de comprender interacciones sociales matizadas, lo que es crucial para una interacción segura entre humanos e IA.

Investigadores de la Universidad Johns Hopkins y de la Universidad de Virginia presentaron MuMA-ToM, el primer modelo de referencia para evaluar el razonamiento de ToM multimodal y multiagente en interacciones corpóreas. MuMA-ToM presenta videos y textos que describen escenarios de la vida real y plantea preguntas sobre los objetivos de los agentes y las creencias sobre los objetivos de los demás. Validaron MuMA-ToM a través de experimentos humanos e introdujeron LIMP (Language model-based Inverse Multi-agent Planning), un nuevo modelo de ToM. LIMP superó a los modelos existentes, incluidos GPT-4o y BIP-ALM, al integrar el razonamiento de dos niveles y eliminar la necesidad de representaciones simbólicas. El trabajo destaca la brecha entre la ToM humana y la de las máquinas.

Los puntos de referencia de ToM se centran tradicionalmente en el razonamiento de un solo agente, mientras que los puntos de referencia de múltiples agentes a menudo carecen de preguntas sobre las relaciones entre agentes. Los puntos de referencia de ToM existentes generalmente se basan en texto o video, con pocas excepciones como MMToM-QA, que aborda las actividades de un solo agente en un formato multimodal. Sin embargo, MuMA-ToM introduce un punto de referencia para el razonamiento de ToM de múltiples agentes que utiliza texto y video para representar interacciones realistas. A diferencia de los métodos anteriores como BIP-ALM, que requiere representaciones simbólicas, el modelo LIMP mejora la planificación de múltiples agentes y emplea representaciones generales invariantes del dominio, lo que mejora el razonamiento de ToM en contextos multimodales y multiagente.

El MuMA-ToM Benchmark evalúa modelos para comprender interacciones sociales de múltiples agentes utilizando video y texto. Incluye 225 interacciones y 900 preguntas centradas en tres conceptos de ToM: inferencia de creencias, inferencia de objetivos sociales e inferencia de creencias de objetivos. Las interacciones se generan de manera procedimental con entradas multimodales distintas, lo que desafía a los modelos a fusionar esta información de manera efectiva. Basado en el marco I-POMDP, el benchmark emplea LIMP, que integra modelos de visión-lenguaje y lenguaje para inferir estados mentales. La precisión humana es alta, pero incluso los mejores modelos como Gemini 1.5 Pro y Llava 1.6 necesitan ponerse al día.

En los experimentos, 18 participantes de Prolific respondieron 90 preguntas seleccionadas al azar del modelo de referencia MuMA-ToM, logrando una alta tasa de precisión del 93,5%. Los modelos de última generación, incluidos Gemini 1.5 Pro y Llava 1.6, obtuvieron un rendimiento significativamente peor, con la mejor precisión del modelo en un 56,4%. El modelo LIMP superó a los demás con una precisión del 76,6% al integrar de manera efectiva las entradas multimodales y usar el lenguaje natural para la inferencia de acciones. Sin embargo, las limitaciones de LIMP incluyen la susceptibilidad a las alucinaciones visuales y la falta de razonamiento explícito de múltiples niveles. El modelo de referencia actualmente se limita a interacciones de dos agentes en entornos domésticos sintéticos.

En conclusión, MuMA-ToM es el primer modelo de referencia multimodal de la teoría de la mente para evaluar el razonamiento mental en interacciones complejas entre múltiples agentes. MuMA-ToM utiliza entradas de video y texto para evaluar la comprensión de objetivos y creencias en entornos domésticos realistas. El estudio evaluó sistemáticamente el desempeño humano y probó modelos de última generación, proponiendo un modelo LIMP (planificación multiagente inversa basada en modelos de lenguaje). LIMP superó a los modelos existentes, incluidos GPT-4o y Gemini-1.5 Pro. El trabajo futuro ampliará el modelo de referencia a escenarios del mundo real más complejos, incluidas interacciones que involucran a múltiples agentes y videos del mundo real.


Echa un vistazo a la Papel. Todo el crédito por esta investigación corresponde a los investigadores de este proyecto. Además, no olvides seguirnos en Gorjeo y LinkedInÚnete a nuestro Canal de Telegram. Si te gusta nuestro trabajo, te encantará nuestro hoja informativa..

No olvides unirte a nuestro Subreddit con más de 50 000 millones de usuarios


A Sana Hassan, pasante de consultoría en Marktechpost y estudiante de doble titulación en el IIT Madrás, le apasiona aplicar la tecnología y la IA para abordar desafíos del mundo real. Con un gran interés en resolver problemas prácticos, aporta una perspectiva nueva a la intersección de la IA y las soluciones de la vida real.