Los LLM pueden pensar mientras están inactivos: los investigadores de Letta y UC Berkeley introducen ‘cómputo de tiempo de sueño’ para reducir los costos de inferencia y aumentar la precisión sin sacrificar la latencia

Los modelos de idiomas grandes (LLM) han ganado prominencia por su capacidad para manejar tareas de razonamiento complejas, transformando aplicaciones de chatbots a herramientas de generación de códigos. Se sabe que estos modelos se benefician significativamente de escalar su cálculo durante la inferencia, a menudo produciendo una mayor precisión al dedicar más recursos a problemas difíciles. Sin embargo, este enfoque trae inconvenientes considerables. Los tiempos de procesamiento más largos y los costos informáticos más altos hacen que sea difícil escalar tales soluciones en entornos del mundo real, donde la capacidad de respuesta y la asequibilidad son cruciales. A medida que la tecnología avanza hacia sistemas más inteligentes, existe una creciente necesidad de explorar cómo los LLM pueden ser no solo más inteligentes sino también más eficientes, especialmente cuando se operan dentro de contextos repetitivos o familiares.

Una de las mayores ineficiencias en la implementación actual de LLM ocurre durante la resolución de consultas. Por lo general, cuando un usuario plantea una pregunta, el modelo lo procesa simultáneamente con el contexto de fondo necesario. Este cálculo de tiempo de prueba supone que el contexto y la pregunta siempre llegan juntos. Pero en escenarios reales, como las preguntas y respuestas de documentos o el código de depuración, el contexto suele ser persistente y se puede acceder mucho antes de hacer una pregunta específica. Sin embargo, el modelo procesa todo desde cero para cada consulta, incluso si ha visto el contexto antes. Esta redundancia da como resultado mayores costos computacionales y retrasos en la respuesta, particularmente en escenarios que involucran múltiples consultas dentro de un solo contexto.

Para lidiar con esta ineficiencia, se han desarrollado varios métodos. El cálculo secuencial y paralelo del tiempo de prueba son dos estrategias principales. Los enfoques secuenciales extienden la ruta de razonamiento del modelo, lo que le permite considerar más posibilidades, mientras que los enfoques paralelos implican el muestreo de múltiples salidas simultáneamente, conocidas como pass@k. Las técnicas como la decodificación especulativa tienen como objetivo reducir la latencia haciendo conjeturas tempranas, pero su utilidad es limitada cuando el modelo aún tiene que pensar desde cero. Si bien son útiles, estos métodos no eliminan la necesidad de procesar el contexto junto con cada nueva pregunta repetidamente. También generalmente requieren condiciones de tiempo de prueba que no siempre son factibles, como el acceso a un oráculo o un verificador ideal.

Investigadores de Letta y la Universidad de California, Berkeley, introdujeron una solución novedosa que llaman Computación de tiempo de sueño. El método implica utilizar el tiempo de inactividad entre las interacciones del usuario para aumentar la productividad. En lugar de esperar una pregunta del usuario, el modelo comienza a analizar el contexto de antemano. Anticipa posibles consultas futuras y construye una nueva versión del contexto enriquecido con inferencias relevantes. Cuando un usuario finalmente hace una pregunta, el modelo simplemente puede referirse a este contexto preprocesado. Dado que gran parte del pensamiento ya está hecho, requiere menos esfuerzo computacional para producir respuestas precisas. Este enfoque se vuelve aún más efectivo cuando múltiples preguntas se relacionan con el mismo contexto, lo que permite inferencias compartidas y costos computacionales distribuidos.

La implementación del cómputo del tiempo de sueño se basa en descomponer el aviso tradicional en dos partes: un contexto estático y una consulta dinámica. Durante la ventana del tiempo de sueño, solo el contexto se utiliza para generar una versión preprocesada. Este contexto mejorado, llamado C ‘, se construye utilizando técnicas de cómputo de tiempo de prueba como cadenas de razonamiento o resumen. Una vez que se almacena esta versión enriquecida, reemplaza el contexto sin procesar durante las consultas en tiempo real. Las respuestas finales se generan utilizando muchos menos recursos. Este sistema no solo minimiza el razonamiento redundante, sino que también allana el camino para LLM más proactivos que pueden pensar en el futuro y estar mejor preparados.

Para evaluar la efectividad del cómputo del tiempo de sueño, el equipo de investigación lo probó utilizando dos puntos de referencia especialmente diseñados: AIME conymbólico GSM con estado. Ambos conjuntos de datos se derivan dividiendo conjuntos de problemas existentes en contextos y preguntas separados. En experimentos que utilizan modelos como GPT-4O y GPT-4O-Mini, los investigadores observaron una reducción de 5 × en el cálculo de tiempo de prueba para niveles de precisión similares. En particular, la precisión mejoró en hasta un 13% para el conjunto de datos P2-simbólico GSM y en un 18% en AIME con estado cuando se escaló el tiempo de tiempo de sueño. GSM-Symbolic múltiple, un nuevo conjunto de datos introducido para esta evaluación, ayudó a demostrar que el costo por consulta podría reducirse en 2.5 × cuando 10 consultas compartieron el mismo contexto.

Cuando se enfrenta a estrategias populares como Pass@K, el cómputo del tiempo de sueño las superó constantemente. A diferencia de Pass@K, que asume el acceso a un evaluador perfecto, el cómputo del tiempo de sueño funciona en condiciones más realistas. Los resultados muestran que incluso a presupuestos de bajo tiempo de prueba de prueba, el cómputo de tiempo de sueño produjo una precisión comparable o mejor al tiempo que consumía menos tokens. Por ejemplo, el modelo GPT-4O-Mini logró una mayor precisión con menos de 200 tokens de tiempo de prueba usando cómputo de tiempo de sueño en comparación con más de 500 tokens necesarios en la línea de base. Incluso cuando se evaluaron modelos como Claude Sonnet 3.7 y Deepseek R1, se observaron mejoras similares.

Escala de la cantidad de cómputo dedicado al tiempo de sueño mejoró aún más los resultados. Al ejecutar cinco generaciones paralelas durante el tiempo de sueño en tareas complejas, los investigadores impulsaron aún más la curva de Pareto. Sin embargo, notaron retornos decrecientes más allá de este punto. Es importante destacar que los resultados mostraron que los modelos más fuertes que manejan tareas más difíciles se beneficiaron más del cómputo adicional del tiempo de sueño. Además, la amortización del cálculo del tiempo de sueño se volvió altamente rentable cuando los contextos atendieron múltiples consultas relacionadas. Al ponderar los tokens de tiempo de prueba como diez veces más caros que los tokens de tiempo de sueño, alineados con las proporciones de costo de latencia de la industria, los investigadores confirmaron una reducción de hasta 2.5 veces en el costo promedio por consulta.

Otro hallazgo interesante fue que el cómputo del tiempo de sueño funcionó mejor cuando las consultas de los usuarios eran predecibles. Usando LLAMA2-70B, los investigadores obtuvieron la previsibilidad de cada consulta dada su contexto y encontraron una fuerte correlación: cuanto más predecible sea la consulta, mayor es el beneficio. En ejemplos en los que la pregunta seguía lógicamente desde el contexto dado, el cálculo del tiempo de sueño arrojó mayores ganancias. Por el contrario, las consultas menos predecibles o abstractas experimentaron una efectividad reducida, aunque todavía mostraron beneficios en comparación con los métodos tradicionales solo por tiempo de prueba.

En conjunto, esta investigación presenta una técnica inteligente y escalable para mejorar la eficiencia de los LLM sin comprometer la precisión. Al aprovechar el tiempo de inactividad de otro modo inactivo, la computación en el tiempo de sueño reduce la carga de los sistemas en tiempo real, reduce los costos operativos y mejora el tiempo de respuesta. Las mejoras cuantitativas claras, como una reducción de 5 × en el cálculo, el 13-18% de las ganancias de precisión y una caída de hasta 2.5 × en costo por consulta, demuestran que los enfoques con visión de futuro como este podrían dar forma a la próxima generación de asistentes inteligentes y conocedores de contexto.

Varias conclusiones clave de la investigación son las siguientes:

  • El cómputo del tiempo de sueño permite a los modelos anticipar consultas razonando en el contexto antes de que llegue la consulta.
  • La precisión mejoró en un 13% en GSM-Symbolic y 18% en los conjuntos de datos de AIME cuando se escaló el cálculo del tiempo de sueño.
  • Los requisitos de tiempo de computo de prueba disminuyeron aproximadamente 5 veces para niveles de rendimiento similares.
  • Al compartir el contexto en 10 consultas relacionadas, el costo promedio de la consulta disminuyó en un factor de 2.5.
  • Superó la estrategia Pass@K en configuraciones de cálculo paralelo en presupuestos equivalentes.
  • Más efectivo en consultas predecibles, identificadas a través de la puntuación de la probabilidad log.
  • Los rendimientos decrecientes se observaron más allá de cinco generaciones paralelas para el cálculo del tiempo de sueño.

Mira el Papel. Además, no olvides seguirnos Gorjeo y únete a nuestro Canal de telegrama y LinkedIn GRsalpicar. No olvides unirte a nuestro 90k+ ml de subreddit.

🔥 [Register Now] Conferencia virtual de Minicon sobre AI agente: registro gratuito + Certificado de asistencia + Evento corto de 4 horas (21 de mayo, 9 am- 1 pm PST) + Hands on Workshop


Nikhil es consultor interno en MarktechPost. Está buscando un doble grado integrado en materiales en el Instituto Indio de Tecnología, Kharagpur. Nikhil es un entusiasta de AI/ML que siempre está investigando aplicaciones en campos como biomateriales y ciencias biomédicas. Con una sólida experiencia en la ciencia material, está explorando nuevos avances y creando oportunidades para contribuir.