Screenshot 2023 11 05 At 12.43.31 Am.png

En la IA conversacional, evaluar la Teoría de la Mente (ToM) a través de la respuesta a preguntas se ha convertido en un punto de referencia esencial. Sin embargo, las narrativas pasivas deben mejorar a la hora de evaluar las capacidades de ToM. Para abordar esta limitación, se han diseñado diversas preguntas que requieren las mismas habilidades de razonamiento. Estas preguntas han revelado las capacidades limitadas de ToM de los LLM. Incluso con un razonamiento en cadena de pensamiento o ajustes, los LLM de última generación aún requieren ayuda al abordar estas preguntas y se desempeñan por debajo de los estándares humanos.

Investigadores de diferentes universidades presentaron FANToM, un punto de referencia para probar ToM en LLM mediante la respuesta a preguntas conversacionales. Incorpora conocimientos psicológicos y empíricos en la evaluación de LLM. FANToM resulta desafiante para los mejores LLM, que se desempeñan peor que los humanos incluso con razonamiento avanzado o ajustes. El punto de referencia evalúa los LLM al requerir respuestas binarias a preguntas sobre el conocimiento de los personajes y enumerar personajes con información específica. El desempeño humano fue evaluado con 11 estudiantes voluntarios.

FANToM es un nuevo punto de referencia en inglés diseñado para evaluar la ToM automática en contextos conversacionales, centrándose en las interacciones sociales. Incluye 10.000 preguntas dentro de conversaciones entre varias partes, enfatizando la asimetría de la información y los distintos estados mentales entre los personajes. El objetivo es medir la capacidad de los modelos para rastrear creencias en discusiones, probar su comprensión de los estados mentales de los demás e identificar casos de ToM ilusoria.

FANToM prueba la ToM de la máquina en LLM mediante la respuesta a preguntas en contextos conversacionales con asimetría de información. Incluye 10.000 preguntas basadas en conversaciones entre varias partes donde los personajes tienen distintos estados mentales debido a la información inaccesible. El punto de referencia evalúa la capacidad de los LLM para rastrear creencias en discusiones e identificar ToM ilusorias. A pesar del razonamiento en cadena de pensamiento o del ajuste, los LLM existentes se desempeñan significativamente peor en FANToM que los humanos, como indican los resultados evaluados.

Los resultados de la evaluación de FANToM revelan que incluso con razonamiento en cadena de pensamiento o ajustes, los LLM existentes se desempeñan significativamente peor que los humanos. Algunos razonamientos de LLM ToM en FANToM se consideran ilusorios, lo que indica su incapacidad para comprender las distintas perspectivas de los personajes. Si bien la aplicación de una lógica de cadena de pensamiento de cero posibilidades o un ajuste fino mejora las puntuaciones del LLM, persisten brechas sustanciales en comparación con el desempeño humano. Los hallazgos subrayan los desafíos en el desarrollo de modelos con un razonamiento coherente de la Teoría de la Mente, enfatizando la dificultad de lograr una comprensión a nivel humano en los LLM.

En conclusión, FANToM es un punto de referencia valioso para evaluar la ToM en LLM durante las interacciones conversacionales, lo que destaca la necesidad de estándares más orientados a la interacción que se alineen mejor con los casos de uso del mundo real. La medida ha demostrado que los LLM actuales tienen un rendimiento inferior al de los humanos, incluso con técnicas avanzadas. Ha identificado el problema de la coherencia interna en los modelos neuronales y ha proporcionado varios enfoques para abordarlo. FANToM enfatiza la distinción entre información accesible e inaccesible en el razonamiento ToM.

Las direcciones de investigación futuras incluyen fundamentar el razonamiento ToM en la pragmática, la información visual y los gráficos de creencias. Las evaluaciones pueden abarcar diversos escenarios de conversación más allá de pequeñas charlas sobre temas específicos, y se pueden integrar aspectos multimodales como la información visual. Es crucial abordar la cuestión de la coherencia interna de los modelos neuronales. FANToM ahora está disponible públicamente para futuras investigaciones, promoviendo el avance de la comprensión de ToM en los LLM. Los estudios futuros pueden considerar la incorporación de variables de relación para un razonamiento social más dinámico.


Revisar la Papel, GitHub, y Proyecto. Todo el crédito por esta investigación va a los investigadores de este proyecto. Además, no olvides unirte. nuestro SubReddit de 32k+ ML, Comunidad de Facebook de más de 40.000 personas, Canal de discordia, y Boletín electrónicodonde compartimos las últimas noticias sobre investigaciones de IA, interesantes proyectos de IA y más.

Si te gusta nuestro trabajo, te encantará nuestra newsletter.

también estamos en Telegrama y WhatsApp.


Hola, mi nombre es Adnan Hassan. Soy pasante de consultoría en Marktechpost y pronto seré aprendiz de gestión en American Express. Actualmente estoy cursando una doble titulación en el Instituto Indio de Tecnología, Kharagpur. Me apasiona la tecnología y quiero crear nuevos productos que marquen la diferencia.