para un LLM y tiene una pregunta en mente, existe una innegable sensación de posibilidad. No puedes estar muy seguro de cuál será la respuesta, pero hay muchas posibilidades de que te impresione con su confianza y especificidad en tu solicitud, y que resuelva tu problema en segundos. Cuando lo hace, ¡la sensación puede ser muy placentera!
Sin embargo, a veces falla, ya sea en conocimientos de propósito general o en casos específicos como la codificación. Como ilustra la cuenta de TikTok Alberta Tech, a veces la IA inventa sus propias funciones y métodos imaginarios, construyéndote algo que no podría ejecutarse. Pero, a veces, ¡te da algo que funciona! Mucho de esto parece una máquina tragamonedas, ¿no?
No sabes lo que sucederá cuando presiones el botón, pero esperas obtener un resultado delicioso y cada vez tienes una nueva oportunidad de recibir ese golpe de dopamina. El no determinismo hace que cada respuesta sea un poco diferente y, francamente, no saber lo que obtendrás puede ser emocionante. También es como tu feed de redes sociales: ¿qué está por venir? Puede ser un anuncio o puede ser tu creador favorito.
Obviamente no soy ni de lejos la primera persona en notar este elemento de la experiencia de usar IA generativa. En el otoño de 2025, Cory Doctorow señaló que recordamos los momentos en que la IA gen. funcionó bien mucho más de lo que recordamos las veces que falló y tuvimos que presionar el botón nuevamente, como los jugadores. Wesam Mikhail publicó en LinkedIn acerca de cómo las “victorias” son engañosas porque el código que funciona también introduce errores y deuda tecnológica bajo el capó. Pero sentimos la oleada de “¡oh, vaya, mira, lo logró!” aún así. Paul Weimer, Fang-Pen Lin y muchos otros han escrito sobre este mismo fenómeno tan sólo en los últimos meses.
Una de las cosas que varios de ellos también mencionaron son las implicaciones financieras, y eso es una gran parte de lo que me interesa de la metáfora.
las fichas
Pagamos por la IA generativa en unidades llamadas tokens. Se trata de palabras o partes de palabras que, por lo general, forman unidades de medida para las entradas y salidas de los LLM. En un sentido literal, la cantidad de fichas es una medida de cuánta potencia se utiliza durante el proceso de inferencia. Al pagar por tokens, estamos pagando por todos los recursos y gastos generales involucrados en una tarea de inferencia. Es por eso que terminamos pagando tanto por la cantidad de texto que pasamos al LLM, en forma de indicaciones, como también por la cantidad de texto que el LLM nos devuelve en sus respuestas.
Los costos de uso de LLM, por lo tanto, se presentan en dólares por token, como $5 por millón de tokens de entrada y $25 por millón de tokens de salida, que son las tasas API actuales de Anthropic para Opus 4.6. También hay precios detallados para visitas de caché y repeticiones, pero esta es la tarifa básica. Para OpenAI, los precios son más bajos pero se miden de la misma manera: para GPT 5.4, son 2,50 dólares por 1 millón de tokens de entrada y 15 dólares por 1 millón de tokens de salida. Los modelos más antiguos y menos sofisticados generalmente son más baratos.
Entonces, si envías 1 millón de tokens de entrada a Opus 4.6, eso te costará $5, y si las salidas de Opus tienen una longitud de 1 millón de tokens, eso te costará $25, lo que hace que tu costo total sea de $30. 1 millón de tokens parece mucho, y lo es (1,5 millones de tokens es aproximadamente la duración de la serie de libros de Harry Potter), pero con el tiempo, el uso acumulado si convierte el LLM en parte de su trabajo habitual puede acumularse rápidamente.
Es posible que ya hayas notado el primer punto que quiero destacar: aparentemente puedes controlar cuántos tokens envías y, por lo tanto, controlar tus costos, pero ese control es limitado. Puede hacer que sus indicaciones sean breves, limitar las instrucciones superfluas y, como resultado, mantener bajos los costos de entrada. Sin embargo, cuando intervienen herramientas de agente y el LLM está creando indicaciones para pasar a otros LLM, usted ya no está a cargo de la duración de las indicaciones. Aún más significativo, usted tiene sólo un control mínimo sobre la cantidad de tokens con los que cualquier modelo responde (por ejemplo, pidiéndole que “sea conciso”). En su mayor parte, la cantidad de tokens de salida es parte de esa incógnita no determinista que describí antes. Y, como observará, un token de salida cuesta 5 veces el precio de un token de entrada.
Entonces, volviendo a nuestra metáfora de las máquinas tragamonedas, le pones una moneda de veinticinco centavos a la máquina y eso paga por tu atracción. Pero luego recibes una respuesta y TAMBIÉN tienes que pagar por eso, aunque no te avisan con antelación de cuánto costará. ¿Si no ganaras con ese esfuerzo y el LLM creó su propio lenguaje de codificación y no se ejecuta nada? Todavía hay que pagar por ese resultado, y el costo sólo depende de la duración de la respuesta, sin tener en cuenta su utilidad. La longitud puede ser de cualquier tamaño, especialmente en la IA agente, y no hay forma de predecirla.
Oh bueno, puedes pensar, este es el precio del producto, y de todas formas, el próximo tirón seguramente será mejor, ¿no? Entonces pagas por esa producción que no funcionó, y luego pones otra moneda en la máquina, tiras y esperas algo mejor.
Suscripciones
Los usuarios habituales de IA generativa pueden estar comentando: “¡Oh, pero puedes obtener una suscripción y pagar una tarifa fija!” Esto es cierto y es fundamental para el éxito de la adopción de estas herramientas hasta la fecha. Esto abstrae el costo del nivel del token, lo que le permite usar el LLM por una tarifa fija hasta el límite de uso. Una suscripción a Claude para un usuario individual comienza en $20 al mes, y este es el nivel que le brinda Claude Code, Cowork, herramientas de investigación y extensiones para utilizar en otro software como Excel.
Sin embargo, no es tan transparente como podría parecer. Ninguno de estos planes, de ningún proveedor, permite el uso ilimitado, y los detalles de los límites están profundamente oscurecidos en la documentación: “Su uso se ve afectado por varios factores, incluida la duración y complejidad de sus conversaciones, las funciones que utiliza y con qué modelo de Claude está chateando”. Esto significa que en realidad no puedes planificar con anticipación cuánto de tu presupuesto de uso consumirás en una situación particular. En el mejor de los casos, tiene un límite en el costo que encontrará en un mes determinado, por lo que no aparecerán facturas sorpresa, pero no tiene una idea real de cuándo se cortará abruptamente su uso del mes.
Dicho de otra manera, si su presupuesto de uso se basa en las funciones, el modelo que está utilizando y las otras cosas que describen, eso significa que el uso de su token no es un limitador fijo. Los límites de uso no están ajustados con precisión a los números de token. Lo que esto significa es que muchos usuarios con suscripciones pueden, de hecho, utilizar más de 20 dólares en servicios cada mes. Esto es aún más cierto para los planes Max, que cuestan entre $100 y $200 al mes y ofrecen aún más uso, pero nuevamente, los límites de uso están ocultos a la vista de los usuarios. Descifrar cuáles son realmente los límites y qué hace que su uso ocupe más de su límite es un tema que los usuarios discuten con frecuencia, por ejemplo en las comunidades de Reddit o en otras redes sociales.
Conclusión
¿Qué significa esto, en general? Por un lado, el costo material de ejecutar la inferencia generativa de IA es bastante alto. Para que empresas como Anthropic y OpenAI generen ingresos significativos, y mucho menos obtengan ganancias y cumplan con las expectativas de los inversores, los analistas generalmente coinciden en que los precios que he establecido anteriormente están por debajo del costo. Esta es la razón por la que, por ejemplo, Anthropic ha obligado a los usuarios de OpenClaw a utilizar precios por uso de token, no suscripciones: la gente está utilizando más límites y convirtiendo las suscripciones en líderes en pérdidas.
Sin embargo, el pago por uso es extremadamente difícil de vender a la mayoría de los usuarios, porque eso revela el hecho que describí al principio, que es que tienes que pagar por la atracción de la máquina tragamonedas y por la salida, incluso si no ganas. Esperamos una buena relación calidad-precio en situaciones como ésta, por lo que el modelo de negocio de los juegos de azar no tiene realmente sentido en el contexto del software. Cuando estamos acostumbrados al retorno de la inversión y al control de calidad, un modelo de negocio en el que se requiere pagar por el producto incluso cuando no funciona requiere un cambio de paradigma significativo.
Sin embargo, los proveedores de IA generativa no tienen otra opción: cuando el modelo hace inferencias y devuelve tokens, les cuesta dinero, ya sea que la respuesta sea buena o no. Esto es fundamental para la cuestión de cómo esta tecnología pasa de ser una novedad o una burbuja a convertirse en un negocio sostenible. ¿Aceptará la gente pagar por cada apuesta, cuando no pueden predecir cuánto les costará (porque el número de tokens de salida no es determinista) y no pueden predecir si realmente funcionará para sus necesidades? Tengo que dudarlo, para la población en general, y eso significa una bomba de tiempo para la industria.
Lea más de mi trabajo en www.stephaniekirmer.com. Además, puedes verme hablar en vivo en persona en ODSC East el 30 de abril en Boston.
Lectura adicional
Cory Doctorow
https://www.linkedin.com/posts/wesammikhail_llm-coding-feels-like-productivity-but-behaves-activity-7436574539683307520-4cDK
https://fangpenlin.com/posts/2026/03/19/no-llm-is-not-going-to-replace-software-engineers-heres-why
https://www.patreon.com/posts/slot-machine-llm-138864761