Los investigadores del MIT introducen disciplina: un marco de autocontrol utilizando modelos de lenguaje planificador y seguidor para una generación y razonamiento limitados eficientes

Los modelos de lenguaje predicen secuencias de palabras basadas en grandes conjuntos de datos y se espera cada vez más que razonen y realicen manipulaciones lingüísticas complejas. Sin embargo, a pesar de su creciente sofisticación, incluso los modelos poderosos a menudo fallan cuando se asignan problemas que requieren lógica paso a paso, especialmente aquellos unidos por restricciones explícitas o resolución de problemas estructuradas, destacando sus limitaciones actuales en el razonamiento aplicado.

La dificultad surge en la generación del lenguaje que se adhiere estrictamente a las condiciones dadas. Las tareas pueden especificar los recuentos de palabras exactos, la posición de las palabras clave o las restricciones temáticas, todas las cuales son desafiantes para los modelos que priorizan la fluidez basada en la probabilidad. Por ejemplo, los modelos a menudo no logran construir una oración coherente mientras incorporan palabras en ubicaciones particulares o componen párrafos bajo múltiples requisitos concurrentes. El desafío no es solo generar contenido relevante, sino generar contenido que se ajusta rígidamente a un conjunto de reglas formales y predefinidas sin comprometer la fluidez.

Actualmente, métodos como la cadena de pensamiento que intentan guiar a los modelos a través de una ruta de razonamiento, pero estos están limitados por su ejecución en serie y costos de inferencia. Los enfoques paralelos, como la suposición y el mejor de muestreo, dependen de generar y filtrar múltiples candidatos. Sin embargo, necesitan mecanismos de puntuación separados y, a menudo, producen resultados inconsistentes. Estas herramientas mejoran ligeramente el rendimiento, pero no pueden garantizar la satisfacción de todas las restricciones, especialmente cuando los modelos carecen de una comprensión inherente de esas restricciones.

Investigadores del MIT y Yale introdujeron un enfoque novedoso llamado Disciplito, diseñado para permitir lo que llaman modelos lingüísticos de “autocontrol”. Este método define dos roles: un modelo de idioma planificador, que genera un programa de inferencia personalizada y una población de modelos de seguidores que ejecutan este programa para resolver la tarea. A diferencia de los sistemas anteriores, el planificador crea una lógica que estructura el proceso de razonamiento. Al separar la planificación de la ejecución, el método permite estrategias de cálculo dinámicas y adaptativas adaptadas a cada tarea.

El funcionamiento interno de la disciplina implica generar código de inferencia utilizando un lenguaje llamado LlamPPL, que es un marco basado en Python para la programación probabilística con modelos de lenguaje. El planificador escribe código que define cómo explorar posibles soluciones, mientras que los modelos de seguidores ejecutan el código para buscar salidas válidas. Estos programas operan proponiendo iterativamente soluciones parciales y calificándolas en función de las limitaciones. La arquitectura admite múltiples técnicas de inferencia, que incluyen muestreo de importancia, secuencial Monte Carlo (SMC) y muestreo de rechazo, que son escalables según los presupuestos computacionales. Esta descomposición estructurada permite al sistema reasignar recursos a candidatos más prometedores durante la ejecución, mejorando la precisión y la eficiencia.

En las evaluaciones de desempeño, Disciplad resultó notablemente efectiva. En el punto de referencia de Collie para la generación de oraciones restringidas, el Folower Model Llama-3.2-1b solo logró solo un 4% de éxito Pass@1. Cuando se mejoró con disciplina y SMC, el rendimiento aumentó al 87%, superando a GPT-4O-Mini en algunos casos. La misma configuración obtuvo un puntaje tan alto como 88% pase@1 para tareas a nivel de párrafo. En un conjunto de tareas difíciles del mundo real llamadas rompecabezas, cubriendo la redacción de subvenciones y la planificación del itinerario, Discipleml superó constantemente tanto el planificador como el seguidor operando solo. El método también demostró una alta coherencia, con puntajes promedio de alrededor de 7.45 de 10 cuando se usa SMC, lo que contrasta de manera marcada las puntuaciones de 9+ de salidas más fluidas pero incorrectas producidas por los métodos de referencia.

En general, el trabajo introduce una nueva dirección en el modelado de idiomas donde los modelos generan respuestas e idean cómo deben calcularse. Al permitir que el planificador genere un código que estructura el razonamiento y los seguidores ejecuten este código en paralelo, el método logra precisión, adaptabilidad y fluidez sin requerir modelos más grandes o ingeniería manual. Los resultados de la investigación ilustran una ruta clara para permitir que los modelos de lenguaje más pequeños superen su tamaño a través de la orquestación inteligente y la inferencia autoguiada.


Aquí está el Papel. Además, no olvides seguirnos Gorjeo y únete a nuestro Canal de telegrama y LinkedIn GRsalpicar. No olvides unirte a nuestro 90k+ ml de subreddit.

🔥 [Register Now] Conferencia virtual de Minicon sobre AI agente: registro gratuito + Certificado de asistencia + Evento corto de 4 horas (21 de mayo, 9 am- 1 pm PST) + Hands on Workshop


Nikhil es consultor interno en MarktechPost. Está buscando un doble grado integrado en materiales en el Instituto Indio de Tecnología, Kharagpur. Nikhil es un entusiasta de AI/ML que siempre está investigando aplicaciones en campos como biomateriales y ciencias biomédicas. Con una sólida experiencia en la ciencia material, está explorando nuevos avances y creando oportunidades para contribuir.