Mit Language Prorams 01 Press.jpg

Los grandes modelos de lenguaje como los que impulsan ChatGPT han mostrado un rendimiento impresionante en tareas como redactar informes legales, analizar el sentimiento de las opiniones de los clientes o traducir documentos a diferentes idiomas.

Estos modelos de aprendizaje automático generalmente utilizan solo lenguaje natural para procesar información y responder consultas, lo que puede dificultarles la realización de tareas que requieren razonamiento numérico o simbólico.

Por ejemplo, un modelo de lenguaje grande podría memorizar y recitar una lista de los presidentes estadounidenses recientes y sus cumpleaños, pero ese mismo modelo podría fallar si se le preguntara «¿Qué presidentes estadounidenses elegidos después de 1950 nacieron en miércoles?» (La respuesta es Jimmy Carter.)

Investigadores del MIT y de otros lugares han propuesto una nueva técnica que permite que modelos de lenguaje grandes resuelvan tareas de lenguaje natural, análisis de datos y matemáticas y razonamiento simbólico mediante la generación de programas.

Su enfoque, llamado programas integrados en lenguaje natural (NLEP), implica solicitar un modelo de lenguaje para crear y ejecutar un programa Python para resolver la consulta de un usuario y luego generar la solución como lenguaje natural.

Descubrieron que los NLEP permitían que los modelos de lenguaje grandes lograran una mayor precisión en una amplia gama de tareas de razonamiento. El enfoque también es generalizable, lo que significa que un mensaje NLEP se puede reutilizar para múltiples tareas.

Los NLEP también mejoran la transparencia, ya que un usuario puede verificar el programa para ver exactamente cómo razonó el modelo sobre la consulta y corregir el programa si el modelo dio una respuesta incorrecta.

“Queremos que la IA realice razonamientos complejos de una manera transparente y confiable. Todavía queda un largo camino por recorrer, pero hemos demostrado que combinar las capacidades de la programación y el lenguaje natural en grandes modelos de lenguaje es un muy buen primer paso potencial hacia un futuro en el que las personas puedan comprender y confiar plenamente en lo que sucede dentro de su IA. modelo», dice Hongyin Luo PhD ’22, postdoctorado del MIT y coautor principal de un documento sobre NLEP.

A Luo se unen en el artículo los coautores principales Tianhua Zhang, estudiante de posgrado de la Universidad China de Hong Kong; y Jiaxin Ge, estudiante de la Universidad de Pekín; Yoon Kim, profesor asistente en el Departamento de Ingeniería Eléctrica y Ciencias de la Computación del MIT y miembro del Laboratorio de Ciencias de la Computación e Inteligencia Artificial (CSAIL); el autor principal James Glass, científico investigador principal y jefe del Grupo de Sistemas de Lenguaje Hablado en CSAIL; y otros. La investigación se presentará en la Conferencia Anual del Capítulo Norteamericano de la Asociación de Lingüística Computacional.

Resolución de problemas con programas.

Muchos modelos populares de lenguaje grande funcionan prediciendo la siguiente palabra, o token, dada alguna entrada de lenguaje natural. Si bien modelos como GPT-4 se pueden utilizar para escribir programas, incorporan esos programas en el lenguaje natural, lo que puede provocar errores en el razonamiento o los resultados del programa.

Con los NLEP, los investigadores del MIT adoptaron el enfoque opuesto. Solicitan al modelo que genere un programa paso a paso completamente en código Python y luego incorporen el lenguaje natural necesario dentro del programa.

Un NLEP es una plantilla de resolución de problemas con cuatro pasos. Primero, el modelo llama a los paquetes o funciones necesarios que necesitará para resolver la tarea. El segundo paso implica importar representaciones en lenguaje natural del conocimiento que requiere la tarea (como una lista de los cumpleaños de los presidentes de Estados Unidos). Para el paso tres, el modelo implementa una función que calcula la respuesta. Y para el paso final, el modelo genera el resultado como una línea de lenguaje natural con visualización automática de datos, si es necesario.

«Es como una calculadora digital que siempre proporciona el resultado de cálculo correcto, siempre que el programa sea correcto», afirma Luo.

El usuario puede investigar fácilmente el programa y corregir cualquier error en el código directamente en lugar de tener que volver a ejecutar todo el modelo para solucionar el problema.

El enfoque también ofrece mayor eficiencia que otros métodos. Si un usuario tiene muchas preguntas similares, puede generar un programa principal y luego reemplazar ciertas variables sin necesidad de ejecutar el modelo repetidamente.

Para incitar al modelo a generar un NLEP, los investigadores le dan instrucciones generales para escribir un programa Python, proporcionan dos ejemplos de NLEP (uno con matemáticas y otro con lenguaje natural) y una pregunta de prueba.

“Por lo general, cuando las personas hacen este tipo de indicaciones breves, todavía tienen que diseñar indicaciones para cada tarea. Descubrimos que podemos tener un mensaje para muchas tareas porque no es un mensaje que enseña a los LLM a resolver un problema, sino un mensaje que les enseña a los LLM a resolver muchos problemas escribiendo un programa”, dice Luo.

«Hacer que los modelos de lenguaje razonen con el código abre muchas oportunidades para el uso de herramientas, la validación de resultados, una comprensión más estructurada de las capacidades y la forma de pensar del modelo, y más», dice Leonid Karlinsky, científico principal del Laboratorio de IA Watson del MIT-IBM.

“Aquí no hay magia”

Los NLEP lograron una precisión superior al 90 por ciento al solicitar a GPT-4 que resolviera una variedad de tareas de razonamiento simbólico, como rastrear objetos mezclados o jugar un juego de 24, así como tareas de seguimiento de instrucciones y clasificación de texto. Los investigadores descubrieron que los NLEP incluso mostraban una precisión un 30 por ciento mayor que los métodos de indicaciones para tareas específicas. El método también mostró mejoras con respecto a los LLM de código abierto.

Además de aumentar la precisión de los grandes modelos lingüísticos, los NLEP también podrían mejorar la privacidad de los datos. Dado que los programas NLEP se ejecutan localmente, no es necesario enviar datos confidenciales del usuario a una empresa como OpenAI o Google para que un modelo los procese.

Además, los NLEP pueden permitir que los modelos de lenguaje pequeños funcionen mejor sin la necesidad de volver a entrenar un modelo para una determinada tarea, lo que puede ser un proceso costoso.

«No hay magia aquí. No tenemos un modelo de lenguaje más caro o sofisticado. Todo lo que hacemos es utilizar la generación de programas en lugar de la generación de lenguaje natural, y podemos hacer que funcione significativamente mejor”, afirma Luo.

Sin embargo, un NLEP depende de la capacidad de generación de programas del modelo, por lo que la técnica no funciona tan bien para modelos más pequeños que han sido entrenados en conjuntos de datos limitados. En el futuro, los investigadores planean estudiar métodos que podrían hacer que modelos de lenguaje más pequeños generen NLEP más efectivos. Además, quieren investigar el impacto de las variaciones rápidas en los NLEP para mejorar la solidez de los procesos de razonamiento del modelo.

Esta investigación fue apoyada, en parte, por el Centro de Inteligencia Perceptual e Interactiva de Hong Kong.