¿Qué hace que un modelo de lenguaje sea inteligente? ¿Se trata de predecir la siguiente palabra de una oración o de manejar difíciles tareas de razonamiento que desafían incluso a los humanos más brillantes? Los modelos de lenguajes grandes (LLM) actuales crean texto fluido y resuelven problemas simples, pero enfrentan desafíos que requieren una reflexión cuidadosa, como matemáticas difíciles o resolución de problemas abstractos.
Este problema surge de cómo los LLM manejan la información. La mayoría de los modelos utilizan un pensamiento similar al Sistema 1: reacciones rápidas basadas en patrones similares a la intuición. Si bien funciona para muchas tareas, falla cuando los problemas requieren un razonamiento lógico además de probar diferentes enfoques y verificar los resultados. Ingrese al pensamiento del Sistema 2: un método humano para abordar desafíos difíciles: cuidadoso, paso a paso; a menudo es necesario retroceder para mejorar las conclusiones.
Para solucionar esta brecha, los investigadores introdujeron Meta Chain-of-Thought (Meta-CoT). Basándose en el popular método de Cadena de Pensamiento (CoT), Meta-CoT permite a los LLM modelar no solo los pasos del razonamiento sino todo el proceso de “pensar en un problema”. Este cambio es similar a la forma en que los humanos abordan preguntas difíciles explorando junto con la evaluación e iterando hacia las respuestas.