Este artículo de IA presenta Codi: un marco de autodistilación para un razonamiento eficiente y escalable de la cadena de pensamiento en LLMS

La indicación de la cadena de pensamiento (COT) permite que los modelos de lenguaje grandes (LLM) realicen deducciones lógicas paso a paso en lenguaje natural. Si bien este método ha demostrado ser efectivo, el lenguaje natural puede no ser el medio más eficiente para el razonamiento. Los estudios indican que el razonamiento matemático humano no depende principalmente del procesamiento del lenguaje, lo que sugiere que los enfoques alternativos podrían mejorar el rendimiento. Los investigadores tienen como objetivo refinar cómo el razonamiento del proceso LLMS, equilibrando la precisión con la eficiencia computacional.

El desafío del razonamiento en LLMS proviene de su dependencia de COT explícito, que requiere generar explicaciones detalladas antes de llegar a una respuesta final. Este enfoque aumenta la sobrecarga computacional y ralentiza la inferencia. Los métodos de COT implícitos intentan internalizar el razonamiento sin generar tokens de razonamiento explícitos, pero estos métodos han tenido un rendimiento históricamente inferior en comparación con la COT explícita. Un obstáculo importante radica en el diseño de modelos que puedan procesar eficientemente el razonamiento internamente mientras se mantiene la precisión. Una solución que elimina la carga computacional excesiva sin sacrificar el rendimiento es crítica para ampliar las capacidades de razonamiento en LLM.

Los métodos de COT implícitos anteriores se han basado principalmente en estrategias de aprendizaje curricular, que internalizan progresivamente los pasos de razonamiento. Uno de estos métodos, Coconut, reemplaza gradualmente los tokens COT explícitos con representaciones continuas mientras se mantiene un objetivo de modelado de lenguaje. Sin embargo, este enfoque tiene limitaciones, incluida la propagación de errores y el olvido gradual durante el entrenamiento. Como resultado, el coco, a pesar de las mejoras sobre los modelos de referencia, aún se queda atrás de los métodos COT explícitos por un margen significativo. Los enfoques de COT implícitos han fallado consistentemente en igualar el rendimiento de razonamiento de la COT generada explícitamente.

Investigadores del King’s College London y el Instituto Alan Turing introdujeron CODI (cadena de pensamiento continua a través de la autodistilación) como un marco novedoso para abordar estas limitaciones. Codi destila el razonamiento de cot explícito en un espacio continuo, lo que permite a los LLM realizar deducciones lógicas internamente sin generar tokens COT explícitos. El método emplea la autodistilación, donde un solo modelo funciona como maestro y un alumno, alineando sus activaciones ocultas para codificar el razonamiento dentro de un espacio latente compacto. Al aprovechar esta técnica, Codi comprime efectivamente el razonamiento sin sacrificar el rendimiento.

CODI consiste en dos tareas clave de aprendizaje: generación de cot explícita y razonamiento continuo de cuna. El modelo de maestro sigue el aprendizaje de cuna estándar al procesar el razonamiento paso a paso del lenguaje natural y generar secuencias de cuna explícitas. El modelo de estudiante, en contraste, aprende a internalizar el razonamiento dentro de una representación latente compacta. Para garantizar una transferencia de conocimiento adecuada, CODI aplica la alineación entre estos dos procesos utilizando una función de pérdida de distancia L1. A diferencia de los enfoques anteriores, CODI inyecta directamente la supervisión de razonamiento en los estados ocultos del modelo, lo que permite una capacitación más eficiente. En lugar de confiar en múltiples etapas de capacitación, CODI aplica un enfoque de destilación de un solo paso, asegurando que se minimicen los problemas de pérdida de información y olvido inherentes al aprendizaje curricular. El proceso implica seleccionar un token oculto específico que codifica información de razonamiento crucial, siempre que el modelo pueda generar efectivamente pasos de razonamiento continuo sin tokens explícitos.

Los resultados experimentales demuestran que CODI supera significativamente los métodos de COT implícitos anteriores y es el primero en igualar la precisión de la COT explícita en las tareas de razonamiento matemático. En el conjunto de datos GSM8K, CODI logra una relación de compresión de 3.1 × mientras mantiene el rendimiento comparable al COT explícito. Supera el coco en un 28.2% en precisión. Además, CODI es escalable y adaptable a varios conjuntos de datos COT, lo que lo hace adecuado para problemas de razonamiento más complejos. Los puntos de referencia de rendimiento indican que CODI logra una precisión de razonamiento del 43.7% en GSM8K con un modelo GPT-2, en comparación con el 34.1% con el coco. Cuando se analiza en modelos más grandes como Llama3.2-1b, CODI alcanza la precisión del 55.6%, lo que demuestra su capacidad de escala de manera efectiva. Con respecto a la eficiencia, CODI procesa los pasos de razonamiento 2.7 veces más rápido que el cuna tradicional y 5.9 veces más rápido cuando se aplica a conjuntos de datos de razonamiento más detallados. Su diseño robusto le permite generalizar a los puntos de referencia fuera de dominio, superando a Cot-SFT en conjuntos de datos como SVAMP y Multichiar.

CODI marca una mejora significativa en el razonamiento de LLM, cerrando efectivamente la brecha entre el COT explícito y la eficiencia computacional. Aprovechar la autodistilación y las representaciones continuas introduce un enfoque escalable para el razonamiento de IA. El modelo conserva la interpretabilidad, ya que sus pensamientos continuos pueden decodificarse en patrones de razonamiento estructurado, proporcionando transparencia en el proceso de toma de decisiones. La investigación futura podría explorar la aplicación de Codi en tareas de razonamiento multimodal más complejas, ampliando sus beneficios más allá de la resolución de problemas matemáticos. El marco establece COT implícito como una alternativa computacionalmente eficiente y una solución viable para desafíos de razonamiento en los sistemas de IA avanzados.


Verificar el Papel. Todo el crédito por esta investigación va a los investigadores de este proyecto. Además, siéntete libre de seguirnos Gorjeo Y no olvides unirte a nuestro Subreddit de 80k+ ml.

🚨 Conozca a Parlant: un marco de IA conversacional LLM de LLM diseñado para proporcionar a los desarrolladores el control y la precisión que necesitan sobre sus agentes de servicio al cliente de IA, utilizando pautas de comportamiento y supervisión de tiempo de ejecución. 🔧a 🎛️ Se funciona utilizando una CLI fácil de usar 📟 y SDK de clientes nativos en Python y TypeScript 📦.


Nikhil es consultor interno en MarktechPost. Está buscando un doble grado integrado en materiales en el Instituto Indio de Tecnología, Kharagpur. Nikhil es un entusiasta de AI/ML que siempre está investigando aplicaciones en campos como biomateriales y ciencias biomédicas. Con una sólida experiencia en la ciencia material, está explorando nuevos avances y creando oportunidades para contribuir.