Los modelos de lenguaje grande (LLM) como GPT-3 y ChatGPT exhiben capacidades excepcionales en tareas de razonamiento complejas, como la resolución de problemas matemáticos y la generación de código, superando con creces las técnicas estándar de aprendizaje automático supervisado. La clave para desbloquear estas habilidades de razonamiento avanzadas reside en la cadena de pensamiento (CoT), que se refiere a la capacidad del modelo para generar pasos de razonamiento intermedios antes de llegar a la respuesta final, algo así como cómo los humanos descomponemos un problema complejo en pasos más pequeños en nuestra cabeza. Esto se puede lograr mediante métodos como entrenar el modelo con ejemplos enriquecidos con pasos de razonamiento intermedios o utilizar indicaciones breves para indicarle al modelo que genere un CoT.
Ahora bien, se podría pensar que el contenido de estos pasos intermedios es lo que permite al modelo razonar mejor. Pero, curiosamente, en este estudio, los investigadores descubrieron que incluso si los pasos intermedios son incorrectos o completamente aleatorios, el simple hecho de generarlos todavía ayuda mucho al modelo. Es como si al modelo le dijeran “Está bien, piensa esto paso a paso” y eso por sí solo mejora drásticamente su capacidad de razonamiento.
Entonces, los investigadores querían entender por qué este enfoque de “cadena de pensamiento” es tan poderoso para los transformadores (el tipo de modelo utilizado en GPT-3, etc.). Utilizaron conceptos de la teoría de la complejidad de circuitos y adoptaron el lenguaje de clases de complejidad computacional como NC, AC y TC para analizar este problema.
Esencialmente, descubrieron que sin la cadena de pensamiento, los transformadores se limitan a realizar eficientemente sólo cálculos paralelos, lo que significa que pueden resolver problemas que pueden dividirse en subtareas independientes que pueden calcularse simultáneamente.
Sin embargo, muchas tareas de razonamiento complejas requieren cálculos inherentemente en serie, donde un paso sigue al paso anterior. Y aquí es donde la cadena de pensamiento ayuda mucho a los transformadores. Al generar un razonamiento paso a paso, el modelo puede realizar muchos más cálculos en serie que sin CoT.
Los investigadores demostraron teóricamente que, si bien un transformador básico sin CoT solo puede resolver problemas hasta un cierto nivel de complejidad, permitir un número polinómico de pasos CoT hace que los transformadores sean lo suficientemente potentes como para resolver casi cualquier problema computacionalmente difícil, al menos desde una perspectiva teórica.
Para respaldar su teoría, también hicieron algunos experimentos con diferentes tareas aritméticas, algunas que pueden paralelizarse y otras que inherentemente requieren cálculos secuenciales. Efectivamente, descubrieron que los transformadores tenían dificultades en las tareas secuenciales sin CoT, pero habilitar CoT mejoró drásticamente su rendimiento, especialmente cuando el modelo de transformador era relativamente pequeño/superficial.
En esencia, la cadena de pensamiento es un truco simple pero poderoso que aumenta enormemente las capacidades de razonamiento de modelos de transformadores como GPT-3. Les permite abordar tareas complejas que requieren una lógica secuencial en la que los modelos paralelos fallarían.
Revisar la Papel. Todo el crédito por esta investigación va a los investigadores de este proyecto. Además, no olvides seguirnos en Gorjeo. Únete a nuestro Canal de telegramas, Canal de discordiay LinkedIn Grarriba.
Si te gusta nuestro trabajo, te encantará nuestro Boletin informativo..
No olvides unirte a nuestro SubReddit de 42k+ ML
Vineet Kumar es pasante de consultoría en MarktechPost. Actualmente está cursando su licenciatura en el Instituto Indio de Tecnología (IIT), Kanpur. Es un entusiasta del aprendizaje automático. Le apasiona la investigación y los últimos avances en Deep Learning, Computer Vision y campos relacionados.