Multiagent Debate.png

Un viejo adagio, que a menudo nos fue presentado durante nuestros años de formación, está diseñado para empujarnos más allá de nuestras mentes nacientes y egocéntricas: «Dos cabezas piensan mejor que una». Este proverbio fomenta el pensamiento colaborativo y destaca la potencia del intelecto compartido.

Si avanzamos rápidamente hasta 2023, descubrimos que esta sabiduría es válida incluso en el ámbito de la inteligencia artificial: varios modelos de lenguaje, trabajando en armonía, son mejores que uno.

Recientemente, un equipo del Laboratorio de Ciencias de la Computación e Inteligencia Artificial (CSAIL) del MIT encarnó esta antigua sabiduría dentro de la frontera de la tecnología moderna. Introdujeron una estrategia que aprovecha múltiples sistemas de inteligencia artificial para discutir y discutir entre sí para converger en la mejor respuesta posible a una pregunta determinada. Este método permite que estos modelos de lenguaje expansivos aumenten su adherencia a datos fácticos y refinen su toma de decisiones.

El meollo del problema con los grandes modelos de lenguaje (LLM) radica en la inconsistencia de las respuestas generadas, lo que conduce a posibles imprecisiones y razonamientos erróneos. Este nuevo enfoque permite que cada agente evalúe activamente las respuestas de los demás y utiliza esta retroalimentación colectiva para refinar su propia respuesta. En términos técnicos, el proceso consta de múltiples rondas de generación de respuestas y críticas. Cada modelo de lenguaje genera una respuesta a la pregunta dada y luego incorpora los comentarios de todos los demás agentes para actualizar su propia respuesta. Este ciclo iterativo culmina en un resultado final de una votación mayoritaria entre las soluciones de los modelos. De alguna manera refleja la dinámica de una discusión grupal, donde los individuos contribuyen a llegar a una conclusión unificada y bien razonada.

Una verdadera fortaleza de este enfoque reside en su perfecta aplicación a los modelos de caja negra existentes. Como la metodología gira en torno a la generación de texto, también se puede implementar en varios LLM sin necesidad de acceder a su funcionamiento interno. Esta simplicidad, dice el equipo, podría ayudar a los investigadores y desarrolladores a utilizar la herramienta para mejorar la coherencia y la precisión objetiva de los resultados del modelo de lenguaje en todos los ámbitos.

“Al emplear un enfoque novedoso, no confiamos simplemente en un único modelo de IA para obtener respuestas. En cambio, nuestro proceso incluye una multitud de modelos de IA, cada uno de los cuales aporta información única para abordar una pregunta. Aunque sus respuestas iniciales pueden parecer truncadas o contener errores, estos modelos pueden afinar y mejorar sus propias respuestas examinando las respuestas ofrecidas por sus homólogos», dice Yilun Du, estudiante de doctorado en ingeniería eléctrica e informática del MIT, afiliado al MIT CSAIL. y autor principal de un nuevo documento sobre el trabajo. «A medida que estos modelos de IA participan en el discurso y la deliberación, están mejor equipados para reconocer y rectificar problemas, mejorar sus capacidades de resolución de problemas y verificar mejor la precisión de sus respuestas. Básicamente, estamos cultivando un entorno que los obliga a profundizar en el meollo de un problema. Esto contrasta con un modelo de IA único y solitario, que a menudo repite el contenido que se encuentra en Internet. Nuestro método, sin embargo, estimula activamente los modelos de IA para crear soluciones más precisas y completas».

La investigación analizó la resolución de problemas matemáticos, incluidos los problemas matemáticos de la escuela primaria y de la escuela media y secundaria, y observó un aumento significativo en el rendimiento a través del proceso de debate entre múltiples agentes. Además, los modelos de lenguaje mostraron capacidades mejoradas para generar evaluaciones aritméticas precisas, lo que ilustra el potencial en diferentes dominios.

El método también puede ayudar a abordar el problema de las «alucinaciones» que a menudo afectan a los modelos de lenguaje. Al diseñar un entorno en el que los agentes critican las respuestas de los demás, se sintieron más incentivados a evitar escupir información aleatoria y priorizar la precisión de los hechos.

Más allá de su aplicación a modelos de lenguaje, el enfoque también podría usarse para integrar diversos modelos con capacidades especializadas. Al establecer un sistema descentralizado donde múltiples agentes interactúan y debaten, podrían potencialmente utilizar estas capacidades integrales y eficientes de resolución de problemas en diversas modalidades como voz, video o texto.

Si bien la metodología arrojó resultados alentadores, los investigadores dicen que los modelos de lenguaje existentes pueden enfrentar desafíos al procesar contextos muy largos, y las habilidades de crítica pueden no ser tan refinadas como se desea. Además, el formato de debate entre múltiples agentes, inspirado en la interacción de grupos humanos, aún tiene que incorporar las formas más complejas de discusión que contribuyen a la toma de decisiones colectiva inteligente, un área crucial para la exploración futura, dice el equipo. Avanzar en la técnica podría implicar una comprensión más profunda de los fundamentos computacionales detrás de los debates y discusiones humanos, y el uso de esos modelos para mejorar o complementar los LLM existentes.

«Este enfoque no sólo ofrece un camino para elevar el rendimiento de los modelos lingüísticos existentes, sino que también presenta un medio automático de superación personal. Al utilizar el proceso de debate como datos supervisados, los modelos lingüísticos pueden mejorar su factibilidad y razonamiento de forma autónoma, reduciendo confiar en la retroalimentación humana y ofrecer un enfoque escalable para la superación personal», dice Du. «A medida que los investigadores continúen perfeccionando y explorando este enfoque, podremos acercarnos a un futuro en el que los modelos de lenguaje no sólo imiten el lenguaje humano sino que también exhiban un pensamiento más sistemático y confiable, forjando una nueva era de comprensión y aplicación del lenguaje».

«Tiene mucho sentido utilizar un proceso deliberativo para mejorar el resultado general del modelo, y es un gran paso adelante respecto de la cadena de pensamiento», dice Anca Dragan, profesora asociada del Departamento de Ingeniería Eléctrica de la Universidad de California en Berkeley. y Ciencias de la Computación, que no participó en el trabajo. «Estoy emocionado de saber hacia dónde puede llegar esto a continuación. ¿Pueden las personas juzgar mejor las respuestas que surgen de los LLM cuando ven la deliberación, independientemente de si converge o no? ¿Pueden las personas llegar a mejores respuestas por sí mismas deliberando con un LLM? ¿Puede un programa similar ¿Se podría utilizar esta idea para ayudar a un usuario a investigar la respuesta de un LLM para llegar a una mejor?»

Du escribió el artículo con tres afiliados de CSAIL: Shuang Li SM ’20, PhD ’23; Antonio Torralba, profesor de ingeniería eléctrica e informática del MIT; y Joshua Tenenbaum, profesor de ciencia cognitiva computacional del MIT y miembro del Centro para Cerebros, Mentes y Máquinas. El investigador de Google DeepMind, Igor Mordatch, también fue coautor.