Las tendencias tecnológicas casi siempre priorizan la velocidad, pero la última moda en inteligencia artificial implica deliberadamente desacelerando chatbots caídos. Los investigadores de aprendizaje automático y las principales empresas de tecnología, incluidas OpenAI y Google, están cambiando el enfoque de modelos cada vez más grandes y conjuntos de datos de entrenamiento para enfatizar algo llamado “cómputo en tiempo de prueba”.
A menudo se describe que esta estrategia da a la IA más tiempo para “pensar” o “razonar”, aunque estos modelos funcionan de manera más rígida que los cerebros humanos. No es que a un modelo de IA se le concedan nuevas libertades para reflexionar sobre un problema. En lugar de ello, se introduce el cálculo en el momento de la prueba. estructurado intervenciones en las que se construyen sistemas informáticos para comprobar su trabajo mediante cálculos intermedios o algoritmos adicionales aplicados a sus respuestas finales. Es más parecido a hacer un examen a libro abierto que simplemente extender un límite de tiempo.
Otro nombre para la recientemente popular estrategia de mejora de la IA (que en realidad existe desde hace algunos años) es “escalamiento de inferencia”. La inferencia es el proceso mediante el cual una IA previamente entrenada analiza nuevos datos para realizar una tarea recién solicitada, ya sea generar texto o marcar correos electrónicos no deseados. Al permitir que transcurran segundos o minutos adicionales entre el mensaje de un usuario y la respuesta del programa, y al proporcionar potencia computacional adicional en el momento crítico de inferencia del programa, algunos desarrolladores de IA han visto un salto dramático en la precisión de las respuestas del chatbot.
Sobre el apoyo al periodismo científico
Si está disfrutando este artículo, considere apoyar nuestro periodismo galardonado al suscribiéndose. Al comprar una suscripción, ayudas a garantizar el futuro de historias impactantes sobre los descubrimientos y las ideas que dan forma a nuestro mundo actual.
El cálculo en el momento del examen es especialmente útil para preguntas cuantitativas. “Los aspectos en los que hemos visto las mejoras más interesantes son aspectos como el código y las matemáticas”, afirma Amanda Bertschun doctorado en informática de cuarto año. Estudiante de la Universidad Carnegie Mellon, donde estudia procesamiento del lenguaje natural. Bertsch explica que el cálculo en el momento de la prueba ofrece el mayor beneficio cuando hay una respuesta objetivamente correcta o una forma mensurable de determinar “mejor” o “peor”.
El o1 recientemente lanzado de OpenAI, su último modelo disponible públicamente que impulsa bots estilo ChatGPT, es mucho mejor escribiendo código de computadora y respondiendo correctamente consultas de matemáticas y ciencias que sus predecesores, afirma la compañía: publicación de blog reciente describe o1 como hasta ocho veces más preciso al responder a las indicaciones utilizadas en competencias de programación y casi un 40 por ciento más preciso al responder preguntas de física, biología y química a nivel de doctorado. OpenAI atribuye estas mejoras a la computación en tiempo de prueba y estrategias relacionadas. Y un modelo de seguimiento llamado o3 (aún en pruebas de seguridad y cuyo lanzamiento está previsto para finales de este mes) es casi tres veces más preciso que o1 a la hora de responder a determinadas preguntas de razonamiento, afirma Lindsay McCallum Rémy, responsable de comunicaciones de OpenAI.
Otros análisis académicos, la mayoría publicados como estudios preimpresos que aún no han sido revisados por pares, han reportado resultados igualmente impresionantes. La computación en el momento de la prueba podría mejorar la precisión de la IA y su capacidad para abordar problemas de razonamiento complejos, dice Aviral Kumarprofesor asistente de informática y aprendizaje automático en la Universidad Carnegie Mellon. Está entusiasmado con el cambio de su campo hacia esta estrategia porque otorga a las máquinas la misma gracia que brindamos a las personas cuando dan un esfuerzo adicional para abordar preguntas difíciles. Cree que esto podría acercarnos a modelos con inteligencia humana.
“Parece que todos hacen modelos un poco mejores. Y realmente no entendemos cuáles son las relaciones entre ellos”. —Jacob Andreas, profesor asociado de informática
Incluso si no es así, la computación en tiempo de prueba ofrece una alternativa práctica a los métodos predominantes para mejorar los modelos de lenguaje grandes, o LLM. El enfoque costoso y de fuerza bruta de construir modelos cada vez más grandes y entrenarlos en conjuntos de datos cada vez más masivos ahora esta ofreciendo rendimientos decrecientes. Bertsch dice que la computación en tiempo de prueba ha demostrado su valor para lograr “mejoras consistentes en el rendimiento”, sin inflar modelos que ya son difíciles de manejar ni obligar a los desarrolladores a buscar datos adicionales de alta calidad de un suministro menguante. Sin embargo, aumentar el tiempo de prueba no puede resolverlo todo; tiene sus propias compensaciones y límites.
Un gran paraguas
Los desarrolladores de IA tienen múltiples formas de ajustar el proceso de cálculo en el momento de la prueba y así mejorar los resultados del modelo. “Es un conjunto muy amplio de cosas”, dice Bertsch, “prácticamente cualquier cosa en la que se trate un modelo como parte de un sistema y se construya un andamiaje a su alrededor”.
El método más rudimentario es algo que cualquiera con una computadora puede hacer en casa: pedirle a un chatbot que produzca muchas respuestas a una sola pregunta. Generar más respuestas requiere más tiempo, lo que significa que el proceso de inferencia lleva más tiempo. Una forma de pensarlo: el usuario se convierte en una capa de andamiaje humano que guía el modelo hacia la respuesta más precisa o más adecuada.
Otro método básico consiste en solicitar a un chatbot que informe los pasos intermedios necesarios para resolver un problema. Esta estrategia, denominada estímulo de “cadena de pensamiento”, se describió formalmente en un Papel preimpreso 2022 por investigadores de Google. De manera similar, un usuario también puede simplemente pedirle a un LLM que verifique o mejore un resultado después de que se haya generado.
Algunas evaluaciones indican que las indicaciones en cadena de pensamientos y los métodos de autocorrección relacionados mejoran los resultados del modelo, aunque otras investigaciones demuestran que estas estrategias no son confiables—propenso a producir lo mismo tipos de alucinaciones como otras salidas de chatbot. Para reducir la falta de confiabilidad, muchas estrategias en el momento de las pruebas utilizan un “verificador” externo: un algoritmo entrenado para calificar los resultados del modelo, según criterios preestablecidos, y para seleccionar el resultado que ofrece el mejor paso hacia un objetivo específico.
Los verificadores se pueden aplicar después de que un modelo haya generado una lista de posibles respuestas. Cuando un LLM genera código de computadora, por ejemplo, un verificador podría ser tan simple como un programa que ejecuta el código para asegurarse de que funcione. Otros verificadores podrían guiar un modelo a través de cada coyuntura de un problema de varios pasos. Algunas versiones de cálculo en tiempo de prueba combinan la lógica de estos enfoques mediante el uso de verificadores que evalúan el resultado de un modelo de ambas maneras: como un proceso paso a paso, con muchas rutas de ramificación posibles, y como una respuesta final. Otros sistemas utilizan verificadores para encontrar errores en el resultado inicial o en la cadena de pensamiento de un chatbot y luego brindan al LLM comentarios para corregir esos problemas.
El cálculo en el momento de la prueba es tan exitoso para los problemas cuantitativos porque todos los verificadores dependen de la existencia de una respuesta correcta y cognoscible (o al menos una base objetiva para comparar dos opciones), dice Bertsch. La estrategia es menos efectiva para mejorar resultados como poemas o traducciones, en los que la clasificación es subjetiva.
En una ligera desviación de todo lo anterior, los desarrolladores de aprendizaje automático también pueden usar los mismos tipos de algoritmos para perfeccionar un modelo durante el desarrollo y el entrenamiento y luego aplicarlos durante tiempo de prueba.
“En este momento tenemos todas estas técnicas diferentes, todas las cuales tienen en común que simplemente se realizan cálculos adicionales en el momento de la prueba y que básicamente no comparten otras características técnicas”, dice jacob andreasprofesor asociado de informática en el Instituto de Tecnología de Massachusetts. “Parece que todos hacen modelos un poco mejores. Y realmente no entendemos cuáles son las relaciones entre ellos”.
Límites compartidos
Aunque los métodos varían, comparten las mismas limitaciones inherentes: velocidades de generación más lentas y la posible necesidad de más recursos computacionales, agua y energía. La sostenibilidad ambiental ya es un problema creciente para el campo.
Un LLM puede tardar unos cinco segundos en responder una sola consulta sin ningún cálculo de tiempo de prueba adicional, dice Ekin Akyürekun doctorado en informática. candidato en el MIT, asesorado por Andreas. Pero un método desarrollado Por Akyürek, Andreas y sus colegas elevan ese tiempo de respuesta a cinco minutos. Para determinadas aplicaciones e indicaciones, aumentar el tiempo que lleva la inferencia simplemente no tiene sentido, dice Dilek Hakkani-Turprofesor de informática en la Universidad de Illinois Urbana-Champaign. Hakkani-Tur ha trabajado extensamente en el desarrollo de agentes conversacionales de IA que “hablan” con los usuarios, como Alexa de Amazon. “Allí la velocidad es de suma importancia”, afirma. Para interacciones complicadas, es posible que a un usuario no le importe una pausa de unos segundos para la respuesta de un bot. Pero para un intercambio básico, un humano podría desconectarse si debe esperar lo que parece un tiempo anormalmente largo.
Más tiempo también significa más esfuerzo computacional y dinero. Hacer que o3 realice una sola tarea podría le costó a OpenAI $ 17 o más de $ 1,000dependiendo de la versión del software que se utilice, según estimaciones del creador de una popular prueba comparativa de IA, a quien se le concedió acceso temprano a la IA. Y en los casos en que una gran base de usuarios consulte un modelo millones de veces, trasladar la inversión computacional del entrenamiento a la inferencia haría que todas esas indicaciones se sumaran rápidamente a una carga financiera importante y una enorme absorción de energía. Consultar un LLM como ChatGPT ya utiliza un estimado 10 veces El poder de una búsqueda en Google. Pasar de cinco segundos de cálculo a cinco minutos aumenta decenas de veces la demanda de energía en el momento, dice Akyürek.
Pero esto no es una desventaja definitiva en todos los casos. Si aumentar la computación en el tiempo de prueba permite que los modelos más pequeños funcionen mejor con menos entrenamiento, o si elimina la necesidad de seguir construyendo y entrenando más modelos desde cero, entonces la estrategia podría potencialmente reducir El consumo de energía de la IA generativa en algunos casos, dice Hakkani-Tur. El equilibrio final depende de factores como el uso previsto, la frecuencia con la que se consulta un modelo y la cuestión de si el modelo es lo suficientemente pequeño como para ejecutarse en un dispositivo local en lugar de en una pila de servidores distante. Los pros y los contras “es necesario calcular cuidadosamente”, añade. “Miraría el panorama más amplio de cómo voy a utilizar un modelo”. Es decir, los desarrolladores de IA deberían pensar detenidamente antes de animar a sus creaciones a hacer lo mismo.