Del prototipo a las ganancias: resolviendo el problema de la quema de tokens agentes

Este artículo fue escrito en coautoría por Rahul Vir y Reya Vir.

a la eficiencia del token

Hemos superado oficialmente la fase de creación de prototipos de IA. Aprovechando los conceptos de Escapar del prototipo de espejismo [1]los equipos de productos e ingeniería de todas las industrias ahora están enviando aplicaciones agentes que resuelven flujos de trabajo que antes estaban dominados por el trabajo manual. Construir estos prototipos de agentes autónomos ahora es muy sencillo. Es tan simple como usar conceptos clave como bucles agentes recursivos (observar-pensar-actuar) para la ejecución, configurar puertas de enlace sin cabeza para conectar agentes a través de aplicaciones de chat y confiar en el estado almacenado que persiste durante los reinicios (como se explica en [1]). Pero convertirlos en productos confiables es otra historia. La nueva frontera no demuestra que los agentes puedan trabajar, sino que pueden hacerlo de manera rentable.

Al mismo tiempo, las métricas internas en las empresas como la “maximización de tokens” (uso ilimitado de tokens para lograr mejores resultados) que eran apropiadas para la etapa de creación de prototipos están cambiando para medir la relación “valor-token gastado” a medida que los productos agentes escalan. Después de todo, la mayoría de los productos deben ser rentables y maximizar el margen a medida que pasan de aprovechar la computación tradicional barata (TradCompute) para resolver los problemas de los usuarios a utilizar inteligencia artificial para lo mismo.

Pero los modelos necesitan libertad de razonamiento y estudios recientes han demostrado que los flujos de trabajo agentes exploratorios superan a los caminos fijos, abriendo nuevos caminos, creando herramientas MCP y construyendo infraestructura para resolver el problema de manera más eficiente en la mayoría de los casos. Esto plantea la cuestión de equilibrar la necesidad de agencia del modelo con la realidad económica de los costos de inferencia.

Por qué los agentes restringidos no logran converger

Los arneses de agentes almacenan el contexto y los objetivos de su tarea en archivos Markdown (*.md), que normalmente no representan flujos de trabajo estrictos, sino que describen la intención o el objetivo que desea lograr.

La paradoja del fracaso objetivo: en estudios sobre agentes que resuelven problemas complejos, los investigadores descubrieron que proporcionar pautas estrictas y altamente restringidas donde cada acción del agente lo acerca a la meta, conduce a quedarse atrapado en un óptimo local y sufrir un fracaso objetivo. Un ejemplo de la investigación del profesor Jeff Clune sobre el aprendizaje abierto de agentes ilustra esto perfectamente: un agente en un laberinto, cuando se le recompensa constantemente únicamente por buscar el camino directo a la salida, chocará repetidamente contra las paredes y quedará atrapado en un óptimo local, sin llegar nunca al final. [2].

El poder de los arneses sin restricciones: los arneses de agentes contemporáneos como Google Antigravity y Claude Code de Anthropic han sido tan efectivos porque permiten a los agentes crear, orquestar, ejecutar tareas complejas e incluso crear sus propias herramientas sin una microgestión humana estricta. Tienen éxito porque se les da la libertad de explorar caminos tortuosos.

Consideremos un caso límite en un flujo de trabajo de admisión médica de rutina: si restringimos rígidamente a un agente de atención médica para que siga puramente un flujo de programación predefinido, esto falla en el mundo real. Si un paciente menciona dolor en el pecho a mitad de esa ingesta de rutina, el bucle agente del agente debe tener la autonomía para reconocer instantáneamente la urgencia, abandonar el flujo de programación y desencadenar una escalada de seguridad. Debería utilizar lo que definimos anteriormente como un “Token de no respuesta” para suprimir las conversaciones sobre reservas y dirigir el contexto directamente a una enfermera humana. [1]. Los prototipos rígidamente restringidos fracasan espectacularmente en esta prueba porque no pueden adaptarse a un contexto crítico y fuera de límites.

La búsqueda infinita de objetivos es cara

Si bien proporcionar agencia es esencial para descubrir una solución inicialmente, ejecutar una búsqueda abierta completa para cada solicitud de flujo de trabajo del usuario puede generar un consumo masivo e insostenible de tokens. En esta etapa, el agente ha encontrado un camino válido y este enfoque le permite inherentemente volver a explorar o “alucinar” la estructura del flujo de trabajo. Si bien esto puede corregirse por sí solo, dichas ejecuciones posteriores de una solicitud similar destruyen la economía de los tokens empresariales.

Por ejemplo, el enrutamiento de los flujos de trabajo de admisión médica e incluso los casos extremos que requieren una escalada se pueden aprender con el tiempo. Los flujos de trabajo de una clínica o de un proveedor de soluciones se graduarán hacia caminos deterministas en su mayor parte, dejando cierta autonomía reservada exclusivamente para casos atípicos raros y casos extremos complejos.

Soluciones arquitectónicas mediante compromiso temprano y reproducción determinista

El compromiso temprano se ha mostrado prometedor en la resolución estructurada de problemas y también se puede aplicar a flujos de trabajo agentes. [3]. Implica clasificar el problema primero, por ejemplo, estructurando el mensaje del sistema para requerir que el modelo genere una etiqueta de clasificación específica. Al obligar a un agente a clasificar el tipo de problema y establecer restricciones antes de generar la lógica de ejecución, se evita que el agente tenga alucinaciones o explore caminos sin salida. Esto elimina el ruido y centra al agente únicamente en la ejecución en lugar de en la exploración continua.

Por ejemplo, en un flujo de trabajo de clasificación de telesalud, podemos imponer un compromiso temprano exigiendo al agente que clasifique definitivamente el encuentro como un “resurtido de recetas de rutina” antes de tomar cualquier medida. Una vez comprometido con esta restricción específica, el agente restringe sus llamadas a herramientas estrictamente a la base de datos de la farmacia, evitando por completo los costosos y abiertos caminos de razonamiento de diagnóstico que de otro modo podría recorrer al tratar de diagnosticar a un paciente.

Un estudio reciente de Wang, X., et al. presenta el marco LOOP Skill Engine, que asume un compromiso temprano con el nivel de infraestructura mediante el uso de un paradigma de grabación de una sola vez y reproducción determinista. [4]. El agente puede explorar de forma autónoma una vez utilizando un razonamiento completo y luego el sistema compila ese seguimiento exitoso en una receta sin ramificaciones. Para todas las ejecuciones futuras, se puede omitir el LLM, lo que garantiza el determinismo de ejecución y reduce el uso de tokens en más del 93,3 % para las tareas diarias y hasta el 99,98 % para las ejecuciones de alta frecuencia. Este concepto se puede extender a los flujos de trabajo agentes.

Considere la posibilidad de generar informes diarios de cumplimiento clínico o resúmenes estándar posteriores al alta, que son tareas repetitivas y muy estables. Comenzando desde el marco exploratorio y luego pasando rápidamente a un marco determinista, un agente tiene que razonar a través de la compleja extracción de datos del Registro Médico Electrónico exactamente una vez. Para los siguientes cien pacientes dados de alta con el mismo procedimiento, el sistema ejecuta esa receta exacta sin sucursales, intercambiando de manera confiable los signos vitales y las fechas del nuevo paciente sin siquiera invocar el LLM. Esto garantiza cero datos alucinantes sobre tareas sanitarias repetitivas y, al mismo tiempo, maximiza la eficiencia de los tokens.

Los practicantes de ML deben elegir entre una repetición puramente determinista (como LOOP) que maximiza el ahorro de tokens y un enfoque híbrido (almacenar la ruta explorada en un archivo SKILL.md). El enfoque híbrido intercambia algunos de esos ahorros simbólicos a cambio de razonar a través de un camino guiado que es altamente óptimo, pero que deja suficiente flexibilidad para autoadaptarse a un marco subyacente cambiante. Ya sea que este archivo de habilidades se actualice manualmente o mediante un mecanismo autónomo de mejora automática, preservar este margen de razonamiento garantiza adaptabilidad y solidez a largo plazo. Por ejemplo, si la estructura de la base de datos cambia, el agente puede actualizar las consultas SQL y extraer la información.

Conclusión: el proceso de aprendizaje automático para explorar, comprometer y medir

Los ingenieros de aprendizaje automático y los gerentes de productos deben adaptar sus aplicaciones para aprovechar la vasta inteligencia de los agentes autónomos y adoptar arneses de agentes sin restricciones para el descubrimiento inicial de problemas y casos complejos y únicos. Esto produce soluciones óptimas sin ejecutar un costoso ciclo de aprendizaje por refuerzo (que a menudo se ve bloqueado por falta de experiencia, limitaciones de la plataforma, costos de capacitación o modelos cerrados).

Una vez que hemos encontrado una ruta casi óptima, la economía de tokens para tareas estructuradas y repetitivas exige que impongamos un compromiso temprano en el diseño rápido, utilizando arquitecturas de reproducción deterministas para almacenar en caché la ruta de ejecución.

A medida que los productos agentes crecen, debemos alejar las métricas operativas de las simples tasas de éxito de tareas y avanzar hacia la eficiencia de los tokens y el valor por token generado.

Referencias

Vir, R. y Vir, R. (4 de marzo de 2026). Escapar del espejismo del prototipo: por qué la IA empresarial se estanca. Hacia la ciencia de datos. Clune, J. (2025, 12 de febrero). Conferencia invitada 6 CS329A del Prof. Jeff Clune: Aprendizaje de agentes de duración abierta en la era de los modelos básicos [Video]. YouTube. Vir, R. (2026, 1 de enero). Por qué el compromiso temprano ayuda a la IA a resolver problemas estructurados. Hacia la IA. Wang, X., Yu, K., Liang, X., Wang, L. y Han, C. (2026). Listo para comenzar: el motor de habilidades LOOP que alcanza un 99 % de éxito y reduce el uso de tokens en un 99 % mediante grabación de una sola vez y repetición determinista. arXiv.

Del prototipo a las ganancias: resolviendo el problema de la quema de tokens agentes

ByEquipo de 7 minutos

a la eficiencia del token

Por qué los agentes restringidos no logran converger

La búsqueda infinita de objetivos es cara

Soluciones arquitectónicas mediante compromiso temprano y reproducción determinista

Conclusión: el proceso de aprendizaje automático para explorar, comprometer y medir

Referencias

By Equipo de 7 minutos

Related Post

Perplexity Open-Sources Bumblebee: un escáner de cadena de suministro de solo lectura para puntos finales de desarrolladores

Cohere lanza Command A+: un modelo MoE disperso de 218 B para flujos de trabajo agentes que se ejecuta en tan solo dos GPU H100

Construya transformadores de profundidad recurrente con OpenMythos para MLA, GQA, MoE disperso y razonamiento a escala de bucle

You missed

La ‘interferencia’ cuántica podría ayudar a desbloquear los misterios de la causalidad

MARGA PROHENS | Prohens renueva su liderazgo al frente del PP y activa el rumbo hacia el próximo ciclo electoral

Miles de personas se manifiestan en Madrid exigiendo la dimisión del primer ministro por acusaciones de corrupción

1 muerto y 36 heridos en astillero de Nueva York