Los modelos de lenguaje grande (LLM) entrenados en vastos conjuntos de datos del lenguaje humano simulan habilidades lógicas y de resolución de problemas siguiendo enfoques estructurados. Sin embargo, los métodos existentes operan predominantemente dentro de un espacio lingüístico, donde las cadenas textuales expresan explícitamente procesos de razonamiento. Si bien es eficaz para lograr claridad, esta dependencia del lenguaje introduce ineficiencias, ya que el lenguaje natural está inherentemente optimizado para la comunicación en lugar del razonamiento. Los estudios en neurociencia refuerzan esta noción y muestran que el razonamiento a menudo pasa por alto las redes del lenguaje en el cerebro humano. Estos hallazgos resaltan el potencial de desarrollar marcos de razonamiento alternativos que liberen a los LLM de las limitaciones del lenguaje.

Una limitación de los métodos de razonamiento basados ​​en el lenguaje es su ineficiencia computacional. Cuando los LLM procesan cadenas de razonamiento, la mayoría de los tokens contribuyen a la fluidez en lugar del razonamiento real, lo que genera un desperdicio de recursos computacionales. Por otro lado, los pasos de razonamiento críticos exigen una planificación y una toma de decisiones precisas, que las arquitecturas actuales tienen dificultades para manejar de manera efectiva. Estas ineficiencias se vuelven más evidentes a medida que las tareas de razonamiento se vuelven complejas o requieren explorar múltiples soluciones simultáneamente. También, Los modelos basados ​​en el lenguaje a menudo se comprometen prematuramente con caminos deterministas únicos, lo que limita su capacidad de retroceder o considerar soluciones alternativas. Esta incapacidad restringe su eficacia para resolver problemas dinámicos o exploratorios.

El enfoque de razonamiento en cadena de pensamiento (CoT) ha ganado importancia como método para abordar estas ineficiencias. Al guiar a los LLM para generar soluciones intermedias paso a paso en el lenguaje, CoT mejora la claridad y precisión en la resolución de problemas. Sin embargo, sigue sujeto a las limitaciones del lenguaje natural, ya que es menos eficaz para tareas que requieren una planificación o exploración complejas. Las innovaciones recientes han buscado incorporar Razonamiento latente, un método que permite a los modelos realizar cálculos no verbales.. A pesar de estos avances, los enfoques de razonamiento latente a menudo necesitan más escalabilidad y solidez para superar a los métodos tradicionales basados ​​en el lenguaje en diversas tareas.

Investigadores de FAIR en Meta, UC San Diego, propusieron COCO (dohain ohF Estafaestañotuous tpensamiento) para abordar estos desafíos. COCONUT introduce un nuevo paradigma que permite a los LLM razonar en un espacio latente ilimitado, evitando las limitaciones del lenguaje. A diferencia del CoT tradicional, que codifica estados de razonamiento como tokens de palabras, COCONUT utiliza el último estado oculto de un LLM como una representación continua del estado de razonamiento. Esta representación, denominada “pensamiento continuo” se introduce directamente en el modelo para su posterior procesamiento sin decodificarlo en el lenguaje. Al hacerlo, COCONUT permite que el modelo procese pasos de razonamiento de manera computacional de manera eficiente y al mismo tiempo conserva la capacidad de explorar múltiples rutas de solución.

COCONUT emplea un proceso de entrenamiento de múltiples etapas para optimizar sus capacidades de razonamiento latente. Durante el entrenamiento, el modelo alterna entre modos de lenguaje y latentes, reemplazando progresivamente los pasos de razonamiento basados ​​en el lenguaje con representaciones latentes. Por ejemplo, en su etapa final de entrenamiento, COCONUT reemplaza todas las cadenas de razonamiento con pensamientos continuos, lo que permite que el modelo resuelva problemas completamente en el espacio latente. Este método se asemeja a un enfoque de búsqueda primero en amplitud (BFS), donde el modelo evalúa múltiples rutas de razonamiento simultáneamente antes de limitarse a la solución más prometedora. Esta flexibilidad permite a COCONUT abordar tareas complejas que requieren una planificación y una toma de decisiones sustanciales.

El COCO se validó mediante experimentos en tres conjuntos de datos:

  1. GSM8k para razonamiento matemático
  2. ProntoQA para razonamiento lógico
  3. ProsQA es un conjunto de datos recientemente introducido que requiere una planificación avanzada sobre estructuras gráficas.

Los resultados mostraron que COCONUT funcionó mejor que los métodos tradicionales de CoT en cuanto a precisión y eficiencia. Por ejemplo, COCONUT logró una precisión del 99,9 % en tareas de razonamiento lógico, superando el 98,8 % de CoT, y generó menos tokens de razonamiento durante la inferencia. En el conjunto de datos de ProsQA, COCONUT mostró una clara ventaja en tareas que requieren una planificación exhaustiva, superando a CoT y logrando una mayor precisión con menos recursos computacionales.

El principal punto positivo de COCONUT es su capacidad para codificar múltiples rutas de razonamiento simultáneamente. El modelo evita compromisos prematuros con soluciones específicas al procesar estados de razonamiento como pensamientos continuos. En cambio, mantiene una distribución de posibles próximos pasos, eliminando progresivamente caminos incorrectos. Este enfoque demostró ser particularmente efectivo en tareas de razonamiento de dominio abierto como GSM8k, donde COCONUT logró una precisión del 42,9 % en comparación con el 42,0 % de CoT.. La flexibilidad para explorar y retroceder dentro del espacio latente dota a COCONUT de capacidades de planificación superiores y lo posiciona bien para tareas que implican incertidumbre o múltiples vías de solución.

Las conclusiones clave de la investigación sobre el COCO son las siguientes:

  • COCONUT superó a los métodos tradicionales al lograr una precisión del 99,9 % en tareas de razonamiento lógico (ProntoQA) y del 42,9 % en tareas de razonamiento matemático (GSM8k).
  • El modelo redujo la cantidad de tokens de razonamiento generados durante la inferencia, lo que demuestra eficiencia computacional.
  • El razonamiento espacial latente de COCONUT imita un BFS, lo que permite que el modelo explore múltiples soluciones y se adapte a tareas complejas.
  • El proceso de capacitación de múltiples etapas permite a COCONUT escalar a problemas cada vez más desafiantes mientras mantiene un alto rendimiento.
  • COCONUT se destacó en diversas tareas de razonamiento, que van desde problemas matemáticos de dominio abierto hasta razonamiento lógico con estructuras gráficas.

En conclusión, al introducir pensamientos latentes continuos, COCONUT supera las ineficiencias de los enfoques basados ​​en el lenguaje y mejora la eficiencia computacional. Su capacidad para codificar y explorar múltiples vías de razonamiento lo posiciona como una buena solución para la resolución de problemas complejos. Por lo tanto, COCONUT establece un nuevo punto de referencia para el razonamiento automático con buenos resultados en razonamiento lógico y utilización eficiente de tokens.


Verificar el Papel. Todo el crédito por esta investigación va a los investigadores de este proyecto. Además, no olvides seguirnos en Gorjeo y únete a nuestro Canal de telegramas y LinkedIn Grarriba. No olvides unirte a nuestro SubReddit de más de 60.000 ml.

🚨 Tendencias: LG AI Research lanza EXAONE 3.5: tres modelos bilingües de código abierto a nivel de inteligencia artificial de frontera que brindan un seguimiento de instrucciones incomparable y una amplia comprensión del contexto para el liderazgo global en la excelencia en inteligencia artificial generativa….


A Sana Hassan, pasante de consultoría en Marktechpost y estudiante de doble titulación en IIT Madras, le apasiona aplicar la tecnología y la inteligencia artificial para abordar los desafíos del mundo real. Con un gran interés en resolver problemas prácticos, aporta una nueva perspectiva a la intersección de la IA y las soluciones de la vida real.