¿Deberíamos usar LLM como si fueran cuchillos suizos?

Opal, ha sido imposible negar que ha habido un aumento en el nivel de exageración hacia la IA, especialmente con el aumento de la IA generativa y la IA agente. Como científico de datos que trabaja en una empresa de consultoría, he notado un crecimiento considerable en el número de consultas sobre cómo podemos aprovechar estas nuevas tecnologías para que los procesos sean más eficientes o automatizados. Y aunque este interés podría halagar a los científicos de datos, a veces parece que las personas esperan magia de los modelos de IA, como si pudieran resolver cada problema con nada más que un aviso. Por otro lado, aunque personalmente creo que la IA generativa y el agente ha cambiado (y continuará cambiando) cómo trabajamos y vivimos, cuando realizamos modificaciones de procesos comerciales, debemos considerar sus limitaciones y desafíos y ver dónde demuestra ser una buena herramienta (ya que no usaríamos una bifurcación, por ejemplo, para reducir la comida).

Como soy un nerd y entiendo cómo funcionan los LLM, quería probar su rendimiento en un juego lógico como la versión española de Lana Contra una lógica en la que había construido un par de horas hace algunas años (se pueden encontrar más detalles sobre eso. aquí). Específicamente, tenía las siguientes preguntas:

¿Será mejor mi algoritmo que los modelos LLM?
¿Cómo afectarán las capacidades de razonamiento en los modelos LLM?

Construyendo una solución basada en LLM

Para obtener una solución del modelo LLM, construí tres indicaciones principales. El primero fue el objetivo de obtener una suposición inicial:

Supongamos que estoy jugando a Wordle, pero en español. Es un juego en el que tienes que adivinar una palabra de 5 letras, y solo 5 letras, en 6 intentos. Además, se puede repetir una carta en la última palabra.

Primero, revisemos las reglas del juego: todos los días el juego elige una palabra de cinco letras que los jugadores intentan adivinar en seis intentos. Después de que el jugador ingresa a la palabra, cree que es, cada letra está marcada en verde, amarillo o gris: el verde significa que la letra es correcta y en la posición correcta; El amarillo significa que la letra está en la palabra oculta pero no en la posición correcta; mientras que Gray significa que la letra no está en la palabra oculta.

Pero si coloca una carta dos veces y una aparece verde y la otra amarilla, significa que la letra aparece dos veces: una vez en la posición verde, y una vez en otra posición que no es la amarilla.

Ejemplo: si la palabra oculta es “PIZZA”y tu primer intento es “PANEL”la respuesta se vería así: la “PAG” sería verde, el “A” amarillo y el “NORTE”, “MI”y “L” gris.

Dado que por ahora no sabemos nada sobre la palabra objetivo, dame una buena palabra inicial, una que cree que proporcionará información útil para ayudarnos a descubrir la última palabra.

Luego, se utilizaría un segundo aviso para mostrar todas las reglas de la palabra (el aviso aquí no se muestra en su totalidad debido al espacio, pero la versión completa también tenía juegos de ejemplo y razonamientos de ejemplo):

Ahora, la idea es que revisemos la estrategia del juego. Te daré los resultados del juego. La idea es que, dado este resultado, sugiere una nueva palabra de 5 letras. Recuerde también que solo hay 6 intentos totales. Te daré el resultado en el siguiente formato:
Letra -> color

Por ejemplo, si la palabra oculta es PIZZAy el intento es PANELDaré el resultado en este formato:
P -> verde (es la primera letra de la última palabra)
A -> amarillo (está en la palabra, pero no en la segunda posición, en lo que está en el último)
N -> gris (no está en la palabra)
E -> gris (no está en la palabra)
L -> gris (no está en la palabra)

Recordemos las reglas. Si una carta es verde, significa que está en la posición donde se colocó. Si es amarillo, significa que la letra está en la palabra, pero no en esa posición. Si es gris, significa que no está en la palabra.

Si coloca una carta dos veces y una muestra verde y el otro gris, significa que la letra solo aparece una vez en la palabra. Pero si coloca una carta dos veces y una muestra verde y el otro amarillo, significa que la letra aparece dos veces: una vez en la posición verde y otra vez en una posición diferente (no la amarilla).

Toda la información que le proporcione debe usarse para construir su sugerencia. Al final del día, queremos “cambiar” todas las letras verdes, ya que eso significa que adivinamos la palabra.

Su respuesta final solo debe contener la sugerencia de la palabra, no su razonamiento.

El aviso final se utilizó para obtener una nueva sugerencia después de tener el resultado de nuestro intento:

Aquí está el resultado. Recuerde que la palabra debe tener 5 letras, que debe usar las reglas y todo el conocimiento del juego, y que el objetivo es “cambiar” todas las letras verdes, con no más de 6 intentos de adivinar la palabra. Tómese su tiempo para pensar en su respuesta, no necesito una respuesta rápida. No me dé su razonamiento, solo su resultado final.

Algo importante aquí es que nunca intenté guiar los LLM o señalé errores o errores en la lógica. Quería un resultado basado en LLM puro y no quería sesgar la solución en ninguna forma o forma.

Experimentos iniciales

La verdad es que mi hipótesis inicial era que, aunque esperaba que mi algoritmo fuera mejor que el LLMS, pensé que la solución generativa basada en la IA iba a hacer un trabajo bastante bueno sin mucha ayuda, pero después de algunos días, noté algunos comportamientos “divertidos”, como la siguiente (donde la respuesta era obvia):

Ejemplo de solución de juego (crédito: imagen por autor)

La respuesta fue bastante obvia: solo tenía que cambiar dos letras. Sin embargo, ChatGPT respondió con la misma suposición que antes.

Después de ver este tipo de errores, comencé a preguntar sobre esto al final de los juegos, y el LLMS básicamente reconoció sus errores, pero no mostró una explicación clara sobre su respuesta:

Explicación del resultado final (Crédito: Imagen del autor)

Si bien estos son solo dos ejemplos, este tipo de comportamiento era habitual al generar la solución LLM pura, mostrando algunas limitaciones potenciales en el razonamiento de los modelos base.

Análisis de resultados

Con toda esta información en consideración, ejecuté un experimento durante 30 días. Durante 15 días, comparé mi algoritmo con 3 modelos LLM base:

Modelo 4o/5 de ChatGPT (después de que Operai lanzó el modelo GPT-5, no pude alternar entre modelos en la versión de nivel gratuito de ChatGPT)
Modelo de 2.5 flash de Géminis
Modelo de Meta’s Llama 4

Aquí, comparé dos métricas principales: el porcentaje de victorias y las métricas del sistema de puntos (cualquier letra verde en la suposición final otorgada 3 puntos, letras amarillas otorgadas 1 punto y letras gris otorgadas 0 puntos):

*Resultados iniciales entre los modelos base de mi algoritmo y LLMS (crédito: imagen por autor)*

Como se puede ver, mi algoritmo (aunque específico de este caso de uso, solo me llevó un día más o menos construir) es el único enfoque que gana todos los días. Analizando los modelos LLM, Gemini proporciona el peor rendimiento, mientras que ChatGPT y Meta’s Llama proporcionan números similares. Sin embargo, como se puede ver en la figura de la derecha, existe una gran variabilidad en el rendimiento de cada modelo y la consistencia es algo que no se muestra en estas alternativas para este caso de uso particular.

Sin embargo, estos resultados no estarían completos si no analizamos un modelo de razonamiento LLM contra mi algoritmo (y contra un modelo Base LLM). Entonces, durante los siguientes 15 días también comparé los siguientes modelos:

Modelo 4o/5 de ChatGPT utilizando la capacidad de razonamiento
El modelo de 2.5 flash de Géminis (mismo modelo que antes)
Modelo de Llama 4 de Meta (mismo modelo que antes)

Algunos comentarios importantes aquí: inicialmente, planeé usar también Grok, pero después de que Grok 4 fue lanzado, el alternar de razonamiento para Grok 3 desapareció, lo que dificultó las comparaciones; Por otro lado, intenté usar el 2.5-Pro de Gemini, pero en contraste con la opción de razonamiento de ChatGPT, el uso de esto no es una palanca, sino un modelo diferente que solo me permitió enviar 5 indicaciones por día, lo que no nos permitió completar un juego completo. Con esto en mente, mostramos los resultados para los siguientes 15 días:

*Resultados adicionales entre mi algoritmo y modelos LLMS (crédito: imagen por autor)*

La capacidad de razonamiento detrás de LLM proporciona un gran impulso al rendimiento en esta tarea, lo que requiere comprender qué letra se puede usar en cada posición, cuáles han sido evaluados, recordando todos los resultados y comprensión de todas las combinaciones. Los resultados promedio no solo son mejores, sino que también el rendimiento es más consistente, como en los dos juegos que no fueron ganados, solo se perdió una carta. A pesar de esta mejora, el algoritmo específico que construí sigue siendo un poco mejor en términos de rendimiento, pero como mencioné anteriormente, esto se hizo para esta tarea específica. Algo interesante es que para estos 15 juegos, los modelos Base LLM (Gemini 2.5 Flash y Llama 4) no ganaron una vez, y el rendimiento fue peor que el otro set, lo que me hace preguntarme si las victorias que se lograron antes tuvieron suerte o no.

Observaciones finales

La intención de este ejercicio ha sido tratar de probar el rendimiento de los LLM en un algoritmo construido específicamente para una tarea que requiere aplicar reglas lógicas para generar un resultado exitoso. Hemos visto que los modelos base no tienen un buen rendimiento, pero que las capacidades de razonamiento de las soluciones LLM proporcionan un impulso importante, generando un rendimiento similar a los resultados del algoritmo personalizado que había construido. Una cosa importante a tener en cuenta es que si bien esta mejora es real, con aplicaciones y sistemas de producción del mundo real también tenemos que tener en cuenta el tiempo de respuesta (razonamiento de los modelos LLM lleva más tiempo generar una respuesta que los modelos base o, en este caso, la lógica que construí) y el costo (de acuerdo con el Página de precios de Azure OpenAIa partir de los 30^th De agosto de 2025, el precio de 1M tokens de entrada para el modelo de propósito general GPT-4O-Mini de propósito general es de alrededor de $ 0.15, mientras que para el modelo de razonamiento O4-Mini, el costo de los tokens de entrada 1M es de $ 1.10). Si bien creo firmemente que las LLM y la IA generativa continuarán evolucionando la forma en que trabajamos, no podemos tratarlos como un cuchillo suizo que resuelve todo, sin considerar sus limitaciones y sin evaluar soluciones fáciles de construir.

¿Deberíamos usar LLM como si fueran cuchillos suizos?

ByEquipo de 7 minutos

Construyendo una solución basada en LLM

Experimentos iniciales

Análisis de resultados

Observaciones finales

By Equipo de 7 minutos

Related Post

La mayoría de los agentes de IA fallan en producción porque están construidos al revés

Cómo ejecutar eficazmente muchas sesiones de Claude Code en paralelo

Conozca EAGLE 3.1: el algoritmo de decodificación especulativa que soluciona la desviación de la atención en la inferencia LLM

You missed

El Texas T. Rex es un mosasaurio de 80 millones de años del tamaño de un autobús escolar

¿Quién es la jueza del tribunal de distrito que fue reprendida en privado por tener relaciones sexuales en voz alta en su despacho con un agente de la ley de su distrito?

Blog de chismes deportivos n.° 1 en el mundo

Cosmonautas rusos instalan un telescopio de observación del sol en la ISS durante una caminata espacial de 6 horas