Cómo comparar LLMS – ARC AGI 3

En las últimas semanas, hemos visto el lanzamiento de poderosos LLM como Qwen 3 Moe, Kimi K2 y Grok 4. Continuaremos viendo mejoras tan rápidas en el futuro previsible y para comparar los LLM entre sí, requerimos puntos de referencia. En este artículo, discuto el recientemente publicado ARC AGI 3 Benchmark y por qué Frontier LLMS lucha por completar cualquier tarea en el punto de referencia.

Motivación

ARC AGI 3 fue lanzado recientemente.

Mi motivación para escribir este artículo es estar al tanto de los últimos desarrollos en la tecnología LLM. Solo en las últimas dos semanas hemos visto el Kimi K2 modelo (mejor abiertoModelo Urce cuando se libera), Qwen 3 235b-A22B (Actualmente el mejor modelo de código abierto), Grok 4etcétera. Hay tantas cosas en el espacio LLM, y una forma de mantenerse al día es rastrear los puntos de referencia.

Creo que el punto de referencia ARC AGI es particularmente interesante, principalmente porque quiero ver si los LLM pueden igualar la inteligencia a nivel humano. Los rompecabezas ARC AGI se hacen para que los humanos puedan completarlos, pero LLMS tendrá dificultades.

También puedes leer mi artículo Al utilizar la ingeniería del contexto para mejorar significativamente el rendimiento de LLM Y mira Mi sitio web, que contiene toda mi información y artículos.

Tabla de contenido

Introducción a ARC AGI

ARC AGI es esencialmente un juego de rompecabezas de coincidencia de patrones.

  • Arco agi 1: Se le da una serie de pares de entrada-salida y tienes que completar el patrón
  • Arco agi 2: Similar al primer punto de referencia, realizar una coincidencia de patrones en ejemplos de entrada y salida
  • Arco agi 3: Aquí estás jugando un juego, donde tienes que mover tu bloque al área de la meta, pero algunos pasos requeridos entre

Creo que es genial probar estos juegos de rompecabezas y completarlos yo mismo. Luego, puede ver que LLM inicialmente lucha con los puntos de referencia y luego aumenta su rendimiento con mejores modelos. OpenAi, por ejemplo, anotado:

  • 7.8% con O1 mini
  • 75% con O3-LOW
  • 88% con O3 altibajos

Como también puede ver en la imagen a continuación:

Esta figura muestra el rendimiento de los diferentes modelos OpenAI en el punto de referencia ARC AGI 1. Puede ver cómo aumenta el rendimiento con modelos más avanzados. Imagen de ARC AGIque está bajo la licencia Apache 2.

Jugando el punto de referencia ARC AGI

También puede probar los puntos de referencia ARC AGI usted mismo o construir una IA para realizar las tareas. Ir al Sitio web de ARC AGI 3 Y comienza a jugar el juego.

El objetivo de los juegos es que no tienes instrucciones, y tienes que descubrir las reglas tú mismo. Disfruto de este concepto, ya que representa descubrir un problema completamente nuevo, sin ninguna ayuda. Esto resalta su capacidad para aprender nuevos entornos, adaptarse a ellos y resolver problemas.

Puedes ver Una grabación de mí tocando arco agi 3 aquíencontrando los problemas por primera vez. Desafortunadamente no pude incrustar el enlace en el artículo. Sin embargo, fue muy interesante probar el punto de referencia e imaginar el desafío que tiene que pasar un LLM para resolverlo. Primero observo el entorno y lo que sucede cuando realizo las diferentes acciones. Una acción en este caso es presionar uno de los botones relevantes. Algunas acciones no hacen nada, mientras que otras afectan el medio ambiente. Luego procedo a descubrir el objetivo del rompecabezas (por ejemplo, obtener el objeto al área de objetivos) e intento lograr este objetivo.

Por qué los modelos fronterizos alcanzan el 0%

Este artículo afirma que cuando los modelos fronterizos se probaron en la vista previa de ARC AGI 3, lograron 0%. Esto puede sonar decepcionante para algunas personas, teniendo en cuenta que probablemente pudo completar con éxito muchas de las tareas usted mismo, relativamente rápido.

Como discutí anteriormente, varios modelos OpenAI han tenido éxito con los puntos de referencia ARC AGI anteriores, con su mejor modelo alcanzando el 88% en la primera versión. Sin embargo, inicialmente, los modelos lograron 0%, o en los bajos porcentajes de un solo dígito.

Tengo algunas teorías sobre por qué los modelos Frontier no pudieron realizar tareas en ARC AGI 3:

Longitud de contexto

Cuando trabajas en ARC AGI 3, no obtienes ninguna información sobre el juego. Por lo tanto, el modelo tiene que probar una variedad de acciones, ver la salida de esas acciones (por ejemplo, nada sucede, o un bloque se mueve, etc.). Luego, el modelo tiene que evaluar las acciones que tomó, junto con la salida, y considerar sus próximos movimientos.

Creo que el espacio de acción en ARC AGI 3 es muy grande, y por lo tanto es difícil para los modelos experimentar lo suficiente como para encontrar la acción correcta y evitar repetir acciones no exitosas. Los modelos esencialmente tienen un problema con su longitud de contexto y utilizan la longitud completa.

Recientemente leí un artículo interesante de Manus sobre cómo desarrollan sus agentes y administran su memoria. Puede usar técnicas como resumir el contexto anterior o usar Un sistema de archivos para almacenar un contexto importante. Creo que esto será clave para aumentar el rendimiento en el punto de referencia ARC AGI 3.

Conjunto de datos de capacitación

Otra razón principal por la que los modelos fronterizos no pueden completar con éxito las tareas ARC AGI 3 es que las tareas son muy diferentes de su conjunto de datos de capacitación. LLMS casi siempre funcionará mucho mejor en una tarea si dicha tarea (o una similar) se incluye en el conjunto de datos de capacitación. En este caso, creo que los LLM tienen pocos datos de entrenamiento sobre cómo trabajar con juegos, por ejemplo. Además, un punto importante aquí también son los datos de capacitación de agentes para los LLM.

Con datos de capacitación de agente, me refiero a datos donde el LLM está utilizando herramientas y realizando acciones. Creo que estamos viendo un rápido aumento en las LLM utilizadas como agentes y, por lo tanto, la cantidad proporcional de datos de entrenamiento para el comportamiento de los agentes está aumentando rápidamente. Sin embargo, podría ser que los modelos de frontera actuales aún no sean tan buenos para realizar tales acciones, aunque probablemente aumentará rápidamente en los próximos meses.

Algunas personas destacarán cómo esto demuestra que los LLM no tienen inteligencia real: el objetivo de inteligencia (y el punto de referencia ARC AGI) es poder comprender las tareas sin ninguna pista, solo examinando el entorno. Hasta cierto punto, estoy de acuerdo con este punto, y espero ver que los modelos funcionen mejor en ARC AGI debido al aumento de la inteligencia del modelo, y no por la persecución de referencia, un concepto que exploro más adelante en este artículo.

Rendimiento de referencia en el futuro

En el futuro, creo que veremos grandes mejoras en el rendimiento del modelo en ARC AGI 3. Principalmente porque creo que puede crear agentes de IA que están ajustados para el rendimiento de la agente, y que utilizan de manera óptima su memoria. Creo que se pueden usar mejoras relativamente baratas para mejorar enormemente el rendimiento, aunque también espero mejoras más costosas (por ejemplo, el lanzamiento de GPT-5) funcionará bien en este punto de referencia.

Persecución de referencia

Creo que es importante dejar una sección sobre la persecución de referencia. Benchmark Chasing es el concepto de proveedores de LLM que persiguen puntajes óptimos en puntos de referencia, en lugar de simplemente crear los mejores o más inteligentes LLM. Este es un problema porque la correlación entre el rendimiento de referencia y la inteligencia LLM no es del 100%.

En el mundo del aprendizaje de refuerzo, la persecución de referencia se denominaría piratería de recompensas. Un escenario en el que el agente descubra una forma de hackear el entorno en el que se encuentran para lograr una recompensa, sin realizar una tarea adecuadamente.

La razón por la cual los proveedores de LLM hacen esto es que cada vez que se lanza un nuevo modelo, las personas generalmente miran dos cosas:

  • Rendimiento de referencia
  • Onda

El rendimiento de referencia generalmente se mide en puntos de referencia conocidos, como SWE-Bench y ARC AGI. Las pruebas de vibos también son una forma en que el público a menudo se mide los LLM (no digo que sea una buena manera de probar el modelo, simplemente digo que sucede en la práctica). Sin embargo, el problema con esto es que creo que es bastante simple impresionar a las personas con el ambiente de un modelo, porque la verificación de VIBE intenta un porcentaje muy pequeño del espacio de acción para el LLM. Es posible que solo le haga ciertas preguntas disponibles en la web, o que le pida que programara una aplicación que el modelo ya haya visto 1000 instancias en sus datos de capacitación.

Por lo tanto, lo que debe hacer es tener un punto de referencia por su cuenta, por ejemplo, un conjunto de datos interno que no se ha filtrado a Internet. Luego puede comparar qué LLM funciona mejor para su caso de uso y priorizar usando este LLM.

Conclusión

En este artículo, he discutido los puntos de referencia de LLM y por qué son importantes para comparar LLM. Te he presentado al recién lanzado Arc Agi 3 Benchmark. Este punto de referencia es muy interesante teniendo en cuenta que los humanos pueden completar fácilmente algunas de las tareas, mientras que los modelos fronterizos obtienen un 0%. Por lo tanto, esto representa una tarea donde la inteligencia humana aún supera a los LLM.

A medida que avanzamos, creo que veremos mejoras rápidas en el rendimiento de LLM en ARC AGI 3, aunque espero que este no sea el resultado de la persecución de referencia, sino la mejora de la inteligencia de los LLM.