Screenshot 2024 06 10 At 11.15.14 Pm.png

El procesamiento del lenguaje natural (PNL) implica el uso de algoritmos para comprender y generar el lenguaje humano. Es un subcampo de la inteligencia artificial que tiene como objetivo cerrar la brecha entre la comunicación humana y la comprensión informática. Este campo cubre la traducción de idiomas, el análisis de sentimientos y la generación de idiomas, proporcionando herramientas esenciales para los avances tecnológicos y la interacción persona-computadora. El objetivo final de la PNL es permitir que las máquinas realicen diversas tareas relacionadas con el lenguaje con un dominio similar al humano, convirtiéndola en una parte integral de la investigación y las aplicaciones modernas de la IA.

Todavía existe un desafío crítico en la planificación de tareas utilizando modelos de lenguaje grandes (LLM). A pesar de los importantes avances en PNL, las capacidades de planificación de estos modelos deben ponerse al día con el desempeño humano. Esta brecha de desempeño es crítica ya que la planificación es una tarea compleja que implica la toma de decisiones y la organización de acciones para lograr objetivos específicos, que son aspectos fundamentales de muchas aplicaciones del mundo real. La planificación eficiente es esencial para actividades que van desde la programación diaria hasta las decisiones comerciales estratégicas, lo que destaca la importancia de mejorar las capacidades de planificación de los LLM.

Actualmente, la planificación en IA se estudia ampliamente en robótica y sistemas automatizados, utilizando algoritmos que se basan en lenguajes predefinidos como PDDL (lenguaje de definición de dominio de planificación) y ASP (programación de conjuntos de respuestas). Estos métodos a menudo requieren conocimientos expertos para su configuración y no se expresan en lenguaje natural, lo que limita su accesibilidad y aplicabilidad en escenarios del mundo real. Esfuerzos recientes han intentado adaptar los LLM para tareas de planificación, pero estos enfoques necesitan puntos de referencia más realistas y capturar las complejidades de los escenarios del mundo real. Por lo tanto, se necesitan puntos de referencia que reflejen los desafíos prácticos de planificación.

Un equipo de investigación de Google DeepMind ha presentado NATURAL PLAN, un nuevo punto de referencia diseñado para evaluar las capacidades de planificación de los LLM en contextos de lenguaje natural. Este punto de referencia se centra en tres tareas principales: planificación de viajes, planificación de reuniones y programación de calendario. El conjunto de datos proporciona información del mundo real de herramientas como Google Flights, Google Maps y Google Calendar, con el objetivo de simular tareas de planificación realistas sin necesidad de un entorno de uso de herramientas. NATURAL PLAN desacopla el uso de herramientas de la tarea de razonamiento al proporcionar resultados de estas herramientas como contexto, lo que ayuda a centrar la evaluación en las capacidades de planificación de los modelos.

NATURAL PLAN está meticulosamente diseñado para evaluar qué tan bien los LLM pueden manejar tareas de planificación complejas descritas en lenguaje natural. Para la planificación de viajes, la tarea implica planificar un itinerario con determinadas limitaciones, como visitar varias ciudades dentro de un período determinado, utilizando únicamente vuelos directos. La planificación de reuniones requiere programar reuniones bajo diversas limitaciones, incluidos los tiempos de viaje y la disponibilidad de los participantes. La programación de calendario se centra en organizar reuniones de trabajo en función de los horarios y limitaciones existentes. La construcción del conjunto de datos implica la creación sintética de tareas utilizando datos reales de las herramientas de Google y la adición de restricciones para garantizar una única solución correcta. Este enfoque proporciona un punto de referencia sólido y realista para evaluar las capacidades de planificación de los LLM.

La evaluación reveló que los modelos actuales de última generación, como GPT-4 y Gemini 1.5 Pro, enfrentan desafíos importantes con las tareas de PLAN NATURAL. En planificación de viajes, GPT-4 logró una tasa de éxito del 31,1%, mientras que Gemini 1.5 Pro alcanzó el 34,8%. El rendimiento disminuyó significativamente a medida que aumentó la complejidad de las tareas, y los modelos tuvieron un rendimiento inferior al 5 % al planificar viajes que involucraran diez ciudades. GPT-4 logró una precisión del 47,0 % en la planificación de reuniones, mientras que Gemini 1.5 Pro alcanzó el 39,1 %. En programación de calendario, Gemini 1.5 Pro superó a otros con una tasa de éxito del 48,9%. Estos resultados subrayan la dificultad de planificar en lenguaje natural y la necesidad de métodos mejorados, destacando la importancia de los hallazgos de la investigación.

Los investigadores también realizaron varios experimentos para comprender mejor las limitaciones y fortalezas de los modelos. Descubrieron que el rendimiento del modelo disminuye a medida que aumenta la complejidad de la tarea, por ejemplo, cuando hay más ciudades, personas o días de reunión involucrados. Además, los modelos obtuvieron peores resultados en escenarios de generalización difíciles de fácil en comparación con los fáciles de difícil, lo que indica dificultades para aprender a partir de ejemplos complejos. Los experimentos de autocorrección demostraron que pedir a los modelos que identificaran y corrigieran sus errores a menudo provocaba caídas en el rendimiento, especialmente en modelos más potentes como GPT-4 y Gemini 1.5 Pro. Sin embargo, los experimentos de capacidades en contexto prolongado demostraron ser prometedores: Gemini 1.5 Pro mostró una mejora constante con más ejemplos en contexto, logrando hasta un 39,9 % de precisión en la planificación de viajes con 800 disparos.

En conclusión, la investigación subraya una brecha significativa en las capacidades de planificación de los LLM actuales cuando se enfrentan a tareas complejas del mundo real. Sin embargo, también ilumina el potencial de los LLM y ofrece un rayo de esperanza para el futuro. NATURAL PLAN proporciona un punto de referencia valioso para evaluar y mejorar estas capacidades. Los hallazgos sugieren que, si bien los LLM tienen margen de mejora, son prometedores. Se necesitan avances sustanciales para cerrar la brecha de desempeño con los planificadores humanos. Estos avances podrían revolucionar las aplicaciones prácticas de los LLM en diversos campos, convirtiéndolos en herramientas más efectivas y confiables para tareas de planificación.


Revisar la Papel. Todo el crédito por esta investigación va a los investigadores de este proyecto. Además, no olvides seguirnos en Gorjeo. Únete a nuestro Canal de telegramas, Canal de discordiay LinkedIn Grarriba.

Si te gusta nuestro trabajo, te encantará nuestro Boletin informativo..

No olvides unirte a nuestro SubReddit de 44k+ ML


Nikhil es consultor interno en Marktechpost. Está cursando una doble titulación integrada en Materiales en el Instituto Indio de Tecnología de Kharagpur. Nikhil es un entusiasta de la IA/ML que siempre está investigando aplicaciones en campos como los biomateriales y la ciencia biomédica. Con una sólida formación en ciencia de materiales, está explorando nuevos avances y creando oportunidades para contribuir.