A medida que los modelos de lenguaje (LM) mejoran en tareas como generación de imágenes, preguntas de trivia y matemáticas simples, se podría pensar que el razonamiento humano está a la vuelta de la esquina. En realidad, todavía nos siguen por un amplio margen en tareas complejas. Intente jugar Sudoku con uno, por ejemplo, donde complete los números del uno al nueve de tal manera que cada uno aparezca solo una vez en las columnas, filas y secciones de una cuadrícula de nueve por nueve. Tu oponente de IA no podrá completar los cuadros por sí solo o lo hará de manera ineficiente, aunque puede verificar si has completado el tuyo correctamente.
Ya sea que un LM esté tratando de resolver acertijos avanzados, diseñar moléculas o escribir pruebas matemáticas, el sistema lucha por responder solicitudes abiertas que tienen reglas estrictas a seguir. El modelo es mejor para decirles a los usuarios cómo abordar estos desafíos que para intentarlos él mismo. Además, la resolución práctica de problemas requiere que los LM consideren una amplia gama de opciones sin dejar de respetar las limitaciones. Los LM pequeños no pueden hacer esto de manera confiable por sí solos; Los modelos de lenguaje grande (LLM) a veces pueden hacerlo, especialmente si están optimizados para tareas de razonamiento, pero tardan un poco en responder y utilizan mucha potencia informática.
Esta situación llevó a los investigadores del Laboratorio de Ciencias de la Computación e Inteligencia Artificial (CSAIL) del MIT a desarrollar un enfoque colaborativo en el que un LLM hace la planificación y luego divide el trabajo preliminar de esa estrategia entre los más pequeños. Su método ayuda a los LM pequeños a proporcionar respuestas más precisas que los LLM líderes como GPT-4o de OpenAI, y a acercarse a la precisión de sistemas de razonamiento superiores como o1, al mismo tiempo que son más eficientes que ambos. Su marco, llamado “Restricciones de distribución mediante programación de inferencia con modelos de lenguaje” (o “DisCIPL”), tiene un modelo grande que dirige modelos de “seguidores” más pequeños hacia respuestas precisas al escribir cosas como anuncios de texto, listas de compras con presupuestos e itinerarios de viaje.
El funcionamiento interno de DisCIPL es muy parecido a contratar una empresa para un trabajo en particular. Le proporcionas una solicitud a un modelo de “jefe”, y éste considera cuidadosamente cómo llevar a cabo ese proyecto. Luego, el LLM transmite estas instrucciones y pautas de manera clara a modelos más pequeños. Corrige los resultados de los LM seguidores cuando es necesario; por ejemplo, reemplazando la frase de un modelo que no encaja en un poema con una mejor opción de otro.
El LLM se comunica con sus seguidores utilizando un lenguaje que todos entienden, es decir, un lenguaje de programación para controlar LM llamado “LLaMPPL”. Desarrollado por el Proyecto de Computación Probabilística del MIT en 2023, este programa permite a los usuarios codificar reglas específicas que dirigen un modelo hacia un resultado deseado. Por ejemplo, LLaMPPL se puede utilizar para producir código sin errores incorporando las reglas de un lenguaje particular dentro de sus instrucciones. Instrucciones como “escribir ocho líneas de poesía donde cada línea tenga exactamente ocho palabras” están codificadas en LLaMPPL, poniendo en cola modelos más pequeños para contribuir a diferentes partes de la respuesta.
El estudiante de doctorado del MIT Gabriel Grand, autor principal de un artículo que presenta este trabajo, dice que DisCIPL permite a los LM guiarse entre sí hacia las mejores respuestas, lo que mejora su eficiencia general. “Estamos trabajando para mejorar la eficiencia de inferencia de los LM, particularmente en las muchas aplicaciones modernas de estos modelos que implican generar resultados sujetos a restricciones”, agrega Grand, quien también es investigador de CSAIL. “Los modelos de lenguaje consumen más energía a medida que la gente los usa más, lo que significa que necesitamos modelos que puedan proporcionar respuestas precisas utilizando una potencia informática mínima”.
“Es realmente emocionante ver nuevas alternativas a la inferencia de modelos de lenguaje estándar”, dice Alane Suhr, profesora asistente de la Universidad de California en Berkeley, que no participó en la investigación. “Este trabajo invita a nuevos enfoques para el modelado de lenguajes y los LLM que reducen significativamente la latencia de inferencia a través de la paralelización, requieren significativamente menos parámetros que los LLM actuales e incluso mejoran el rendimiento de las tareas con respecto a la inferencia serializada estándar. El trabajo también presenta oportunidades para explorar la transparencia, la interpretabilidad y la controlabilidad de los resultados del modelo, que sigue siendo un gran problema abierto en el despliegue de estas tecnologías”.
Una historia desvalida
Se podría pensar que los LM de mayor escala son “mejores” en indicaciones complejas que los más pequeños en lo que respecta a precisión y eficiencia. DisCIPL sugiere un contrapunto sorprendente para estas tareas: si puede combinar las fortalezas de modelos más pequeños, es posible que vea un aumento de eficiencia con resultados similares.
Los investigadores señalan que, en teoría, se pueden conectar docenas de LM para que funcionen juntos en el marco DisCIPL, independientemente de su tamaño. En experimentos de escritura y razonamiento, eligieron GPT-4o como su “planificador LM”, que es uno de los modelos que ayuda a ChatGPT a generar respuestas. Se ideó un plan para varios modelos “Llama-3.2-1B” (sistemas más pequeños desarrollados por Meta), en los que esos LM completaron cada palabra (o token) de la respuesta.
Este enfoque colectivo compitió contra tres comparables: una línea de base solo para seguidores impulsada por Llama-3.2-1B, GPT-4o que funciona por sí solo y el sistema de razonamiento o1 líder en la industria que ayuda a ChatGPT a resolver preguntas más complejas, como solicitudes de codificación y problemas matemáticos.
DisCIPL presentó por primera vez la capacidad de escribir oraciones y párrafos que siguen reglas explícitas. Los modelos recibieron indicaciones muy específicas; por ejemplo, escribir una oración que tenga exactamente 18 palabras, donde la cuarta palabra debe ser “Glasgow”, la octava debe ser “en” y la undécima debe ser “y”. El sistema fue notablemente hábil en el manejo de esta solicitud, elaborando resultados coherentes y al mismo tiempo logrando precisión y coherencia similares a o1.
Más rápido, más barato, mejor
Este experimento también reveló que los componentes clave de DisCIPL eran mucho más baratos que los sistemas de última generación. Por ejemplo, mientras que los modelos de razonamiento existentes como o1 de OpenAI realizan razonamientos en texto, DisCIPL “razona” escribiendo código Python, que es más compacto. En la práctica, los investigadores encontraron que DisCIPL condujo a un razonamiento un 40,1 por ciento más corto y un ahorro de costos del 80,2 por ciento con respecto a o1.
Las ganancias de eficiencia de DisCIPL se deben en parte al uso de pequeños modelos Llama como seguidores, que son entre 1.000 y 10.000 veces más baratos por token que los modelos de razonamiento comparables. Esto significa que DisCIPL es más “escalable”: los investigadores pudieron ejecutar docenas de modelos Llama en paralelo por una fracción del costo.
Según los investigadores del CSAIL, esos no fueron los únicos hallazgos sorprendentes. Su sistema también funcionó bien frente a o1 en tareas del mundo real, como hacer listas de ingredientes, planificar un itinerario de viaje y redactar propuestas de subvenciones con límites de palabras. Mientras tanto, GPT-4o tuvo problemas con estas solicitudes y, en las pruebas de escritura, a menudo no podía colocar palabras clave en las partes correctas de las oraciones. La línea de base exclusiva para seguidores esencialmente terminó en último lugar en todos los ámbitos, ya que tuvo dificultades para seguir instrucciones.
“En los últimos años, hemos visto algunos resultados impresionantes de enfoques que utilizan modelos de lenguaje para ‘autoformalizar’ problemas en matemáticas y robótica representándolos con código”, dice el autor principal Jacob Andreas, profesor asociado de ingeniería eléctrica y ciencias de la computación del MIT e investigador principal de CSAIL. “Lo que encuentro más interesante de este artículo es el hecho de que ahora podemos usar LM para formalizar automáticamente la generación de texto, permitiendo los mismos tipos de ganancias de eficiencia y garantías que hemos visto en estos otros dominios”.
En el futuro, los investigadores planean ampliar este marco a un enfoque más completamente recursivo, en el que se pueda utilizar el mismo modelo tanto para el líder como para los seguidores. Grand añade que DisCIPL podría extenderse a tareas de razonamiento matemático, donde las respuestas son más difíciles de verificar. También pretenden probar la capacidad del sistema para satisfacer las preferencias vagas de los usuarios, en lugar de seguir restricciones estrictas, que no pueden describirse en el código de manera tan explícita. Pensando aún más en grande, el equipo espera utilizar los modelos más grandes posibles disponibles, aunque señalan que tales experimentos son computacionalmente costosos.
Grand y Andreas escribieron el artículo junto con el investigador principal de CSAIL y profesor del MIT Joshua Tenenbaum, así como con el investigador científico principal del Departamento de Ciencias Cognitivas y Cerebrales del MIT, Vikash Mansinghka, y el profesor asistente de la Universidad de Yale, Alex Lew SM ’20 PhD ’25. Los investigadores de CSAIL presentaron el trabajo en la Conferencia sobre Modelado del Lenguaje en octubre y en el taller “Implementación de agentes autónomos: lecciones, riesgos e impacto en el mundo real” de IVADO en noviembre.
Su trabajo fue apoyado, en parte, por MIT Quest for Intelligence, Siegel Family Foundation, MIT-IBM Watson AI Lab, una Sloan Research Fellowship, Intel, la Oficina de Investigación Científica de la Fuerza Aérea, la Agencia de Proyectos de Investigación Avanzada de Defensa, la Oficina de Investigación Naval y la Fundación Nacional de Ciencias.