El costo de pensar | Noticias del MIT

Los modelos de lenguajes grandes (LLM) como ChatGPT pueden escribir un ensayo o planificar un menú casi al instante. Pero hasta hace poco, también era fácil dejarlos perplejos. Los modelos, que se basan en patrones de lenguaje para responder a las consultas de los usuarios, a menudo fallaban en problemas matemáticos y no eran buenos en razonamientos complejos. Sin embargo, de repente han mejorado mucho en estas cosas.

Se está capacitando a una nueva generación de LLM conocidos como modelos de razonamiento para resolver problemas complejos. Al igual que los humanos, necesitan algo de tiempo para pensar en problemas como estos y, sorprendentemente, los científicos del Instituto McGovern para la Investigación del Cerebro del MIT han descubierto que los tipos de problemas que requieren el mayor procesamiento de los modelos de razonamiento son exactamente los mismos problemas con los que las personas necesitan tomarse su tiempo. En otras palabras, informan hoy en la revista PNAS, el “coste de pensar” para un modelo de razonamiento es similar al costo de pensar para un ser humano.

Los investigadores, dirigidos por Evelina Fedorenko, profesora asociada de ciencias cognitivas y cerebrales e investigadora del Instituto McGovern, concluyen que, al menos en un sentido importante, los modelos de razonamiento tienen un enfoque del pensamiento similar al humano. Eso, señalan, no es intencionado. “A las personas que construyen estos modelos no les importa si lo hacen como humanos. Sólo quieren un sistema que funcione de manera robusta en todo tipo de condiciones y produzca respuestas correctas”, dice Fedorenko. “El hecho de que haya cierta convergencia es realmente sorprendente”.

Modelos de razonamiento

Como muchas formas de inteligencia artificial, los nuevos modelos de razonamiento son redes neuronales artificiales: herramientas computacionales que aprenden a procesar información cuando se les proporcionan datos y un problema que resolver. Las redes neuronales artificiales han tenido mucho éxito en muchas de las tareas que las propias redes neuronales del cerebro realizan bien y, en algunos casos, los neurocientíficos han descubierto que aquellas que funcionan mejor comparten ciertos aspectos del procesamiento de información en el cerebro. Aún así, algunos científicos argumentaron que la inteligencia artificial no estaba preparada para asumir aspectos más sofisticados de la inteligencia humana.

“Hasta hace poco, yo estaba entre las personas que decían: ‘Estos modelos son realmente buenos en cosas como la percepción y el lenguaje, pero aún falta mucho para que tengamos modelos de redes neuronales que puedan razonar”, dice Fedorenko. “Luego surgieron estos grandes modelos de razonamiento y parecen funcionar mucho mejor en muchas de estas tareas de pensamiento, como resolver problemas matemáticos y escribir códigos de computadora”.

Andrea Gregor de Varda, miembro del Centro K. Lisa Yang ICoN y postdoctorado en el laboratorio de Fedorenko, explica que los modelos de razonamiento resuelven los problemas paso a paso. “En algún momento, la gente se dio cuenta de que los modelos necesitaban tener más espacio para realizar los cálculos reales necesarios para resolver problemas complejos”, afirma. “El rendimiento comenzó a ser muchísimo más fuerte si permitías que los modelos dividieran los problemas en partes”.

Para alentar a los modelos a resolver problemas complejos en pasos que conduzcan a soluciones correctas, los ingenieros pueden utilizar el aprendizaje por refuerzo. Durante su entrenamiento, los modelos son recompensados ​​por las respuestas correctas y penalizados por las incorrectas. “Los modelos exploran el espacio del problema por sí mismos”, dice de Varda. “Se refuerzan las acciones que conducen a recompensas positivas, de modo que produzcan soluciones correctas con más frecuencia”.

Los modelos entrenados de esta manera tienen muchas más probabilidades que sus predecesores de llegar a las mismas respuestas que obtendría un humano cuando se le asigna una tarea de razonamiento. Su resolución de problemas por pasos significa que los modelos de razonamiento pueden tardar un poco más en encontrar una respuesta que los LLM anteriores, pero dado que obtienen respuestas correctas donde los modelos anteriores habrían fallado, vale la pena esperar por sus respuestas.

La necesidad de los modelos de tomarse algún tiempo para resolver problemas complejos ya sugiere un paralelo con el pensamiento humano: si exiges que una persona resuelva un problema difícil instantáneamente, probablemente también fracasará. De Varda quería examinar esta relación de forma más sistemática. Así que les dio a modelos de razonamiento y a voluntarios humanos el mismo conjunto de problemas, y registró no sólo si tenían las respuestas correctas, sino también cuánto tiempo o esfuerzo les llevó llegar allí.

Tiempo versus tokens

Esto significó medir cuánto tiempo les tomó a las personas responder a cada pregunta, hasta el milisegundo. Para los modelos, Varda utilizó una métrica diferente. No tenía sentido medir el tiempo de procesamiento, ya que depende más del hardware de la computadora que del esfuerzo que pone el modelo para resolver un problema. Entonces, en lugar de eso, rastreó los tokens, que son parte de la cadena de pensamiento interna de un modelo. “Producen tokens que no están destinados a que el usuario los vea y trabaje en ellos, sino simplemente a tener un seguimiento del cálculo interno que están haciendo”, explica de Varda. “Es como si estuvieran hablando solos”.

Se pidió tanto a los humanos como a los modelos de razonamiento que resolvieran siete tipos diferentes de problemas, como aritmética numérica y razonamiento intuitivo. Para cada clase de problema, se les dieron muchos problemas. Cuanto más difícil era un problema determinado, más tiempo les tomaba a las personas resolverlo, y cuanto más les tomaba a las personas resolver un problema, más tokens generaba un modelo de razonamiento cuando llegaba a su propia solución.

Del mismo modo, las clases de problemas que los humanos tardaron más en resolver fueron las mismas clases de problemas que requirieron la mayor cantidad de fichas para los modelos: los problemas aritméticos fueron los menos exigentes, mientras que un grupo de problemas llamado “desafío ARC”, donde pares de cuadrículas de colores representan una transformación que debe inferirse y luego aplicarse a un nuevo objeto, fueron los más costosos tanto para las personas como para los modelos.

De Varda y Fedorenko dicen que la sorprendente coincidencia en los costos del pensamiento demuestra una forma en que los modelos de razonamiento piensan como humanos. Sin embargo, eso no significa que los modelos estén recreando la inteligencia humana. Los investigadores todavía quieren saber si los modelos utilizan representaciones de información similares a las del cerebro humano y cómo esas representaciones se transforman en soluciones a los problemas. También sienten curiosidad por saber si los modelos podrán manejar problemas que requieren un conocimiento del mundo que no se detalla en los textos que se utilizan para el entrenamiento de modelos.

Los investigadores señalan que aunque los modelos de razonamiento generan monólogos internos a medida que resuelven problemas, no necesariamente utilizan el lenguaje para pensar. “Si nos fijamos en el resultado que producen estos modelos mientras razonan, a menudo contiene errores o algunas partes sin sentido, incluso si el modelo finalmente llega a una respuesta correcta. Por lo tanto, los cálculos internos reales probablemente tengan lugar en un espacio de representación abstracto y no lingüístico, similar a cómo los humanos no usan el lenguaje para pensar”, dice.