El metasistema de Poetiq crea automáticamente un arnés independiente del modelo que mejoró cada LLM probado en LiveCodeBench Pro sin realizar ajustes

Poetiq acaba de publicar algunos resultados muy interesantes que muestran que su Meta-System alcanzó un nuevo estado del arte en LiveCodeBench Pro (LCB Pro), un punto de referencia de codificación competitivo, al construir y optimizar automáticamente su propio arnés de inferencia, sin ajustar ningún modelo subyacente ni acceder a las partes internas del modelo.

El resultado: GPT 5.5 High con el arnés de Poetiq obtiene una puntuación del 93,9 % en LCB Pro (25T2), frente a su punto de referencia del 89,6 %. Gemini 3.1 Pro, el modelo en el que se optimizó específicamente el arnés, salta del 78,6% al 90,9%, superando al Gemini 3 Deep Think de Google (88,8%), un modelo al que ni siquiera se puede acceder a través de API para verificación externa.

https://poetiq.ai/posts/recursive_self_improvement_coding/

¿Qué es LiveCodeBench Pro?

Antes de entrar en la mecánica, es útil comprender por qué es importante el punto de referencia. LiveCodeBench Pro (LCB) está diseñado para probar la capacidad de codificación de IA de una manera que resista dos modos de falla comunes en los puntos de referencia: contaminación de datos y sobreajuste.

LCB Pro elimina los problemas de las principales competencias de programación competitivas y retiene el código público de verdad sobre el terreno. En cambio, las soluciones se validan frente a un marco de pruebas integral. La salida correcta por sí sola no es suficiente: las soluciones también deben satisfacer limitaciones específicas de memoria y tiempo de ejecución. El punto de referencia también está sujeto a actualizaciones continuas, lo que lo distingue de muchos puntos de referencia estándar que se vuelven obsoletos.

El punto de referencia se centra en los desafíos de C++ y enfatiza la codificación creativa, probando la capacidad de un modelo para la resolución de problemas complejos y una lógica de procedimiento eficaz y de alta calidad. Esto lo distingue de conjuntos de datos como SWEBench que evalúan el uso de herramientas o los flujos de trabajo de corrección de errores. Los problemas se clasifican por dificultad (fácil, media y difícil) según tasas competitivas de resolución humana.

https://poetiq.ai/posts/recursive_self_improvement_coding/

Marco estratégico de Poetiq: tres categorías de tareas de LLM

Este es el tercer punto de referencia publicado por Poetiq, y la elección de LCB Pro fue deliberada. El equipo de investigación enmarca el desempeño del LLM en torno a tres categorías de tareas distintas: desafíos de razonamiento (ARC-AGI es su punto de referencia aquí), desafíos de recuperación (el último examen de la humanidad o HLE) y desafíos de codificación, que, como la aplicación comercial más generalizada para la IA en la actualidad, combinan el razonamiento y la recuperación con la generación de lógica procedimental especializada.

Su iniciativa de codificación tenía tres objetivos específicos y declarados: primero, demostrar que un arnés inteligente puede aumentar la eficacia sin necesidad de ajustes ni acceso a modelos especiales; en segundo lugar, validar la capacidad del Metasistema de superación personal recursiva al crear ese arnés automáticamente; y tercero, demostrar que el arnés resultante es independiente del modelo y se puede aplicar a cualquier modelo sin modificaciones. Según sus resultados, los tres quedaron satisfechos.

¿Qué es un arnés y por qué es importante?

En este contexto, un arnés se refiere a la infraestructura que rodea un modelo de lenguaje para manejar una tarea específica. Piense en ello como una capa de orquestación: controla cómo se solicita el modelo, cómo se estructuran los resultados, cómo se ensamblan las respuestas en múltiples llamadas y cómo se evalúan las soluciones.

Tradicionalmente, estos arneses son fabricados a mano por ingenieros. La afirmación de Poetiq es que su Metasistema construye y optimiza estos arneses automáticamente, a través de la superación personal recursiva. Internamente, el Metasistema funciona desarrollando mejores estrategias para determinar qué preguntar, refinando la cadena secuencial de preguntas e ideando nuevos métodos para reunir las respuestas. El sistema incorpora constantemente aprendizajes de tareas y conjuntos de datos anteriores y actuales para crear nuevos arneses personalizados para tareas específicas, así como agentes y orquestadores para otros tipos de tareas.

¿Cómo se construyó el arnés?

Al Meta-System de Poetiq se le asignó la tarea LCB Pro y construyó un arnés desde cero utilizando solo Gemini 3.1 Pro como modelo base. El Meta-System tuvo en cuenta las tres dimensiones de las pruebas LCB Pro: precisión, tiempo de ejecución y limitaciones de memoria. El sistema se basó en conocimientos de su trabajo anterior en ARC-AGI y HLE al diseñar el arnés. No se realizó ningún ajuste del modelo subyacente y no se requirió acceso a las activaciones del modelo interno: solo acceso API estándar.

Una vez que se construyó y optimizó el arnés para Gemini 3.1 Pro, se aplicó a un amplio conjunto de otros modelos de diferentes proveedores y generaciones, tanto de peso abierto como propietarios, sin ninguna optimización adicional. Cada modelo probado mejoró.

Los números

Vale la pena analizar en detalle los resultados de las pruebas comparativas en todos los niveles de dificultad. En problemas difíciles, la categoría donde las brechas entre modelos son mayores, Gemini 3.1 Pro con el arnés de Poetiq obtiene una puntuación del 58,3 %, frente a su base del 7,7 %. GPT 5.5 Alto con el arnés alcanza el 75,0 % en Difícil, en comparación con el 50,0 %. En las categorías Fácil y Media, el arnés también supera a todos los modelos básicos.

Algunos de los resultados del modelo más pequeño también son notables. Gemini 3.0 Flash mejora en 10 puntos porcentuales, pasando del 72,3% al 82,3%, superando a Claude Opus 4.7, Gemini 3.1 Pro y GPT 5.2 High, todos modelos más grandes y caros. Esto refleja un patrón que Poetiq observó anteriormente en ARC-AGI, donde su optimización permitió que un modelo más pequeño y económico superara a uno más grande. Kimi K2.6 experimenta el mayor salto: del 50,0% al 79,9%, una mejora de aproximadamente 30 puntos porcentuales. Nemotron 3 Super 120B mejora un 12,8%.

Los números de precisión se informan directamente desde la tabla de clasificación de LCB Pro en livecodebenchpro.com (25T2). Para los modelos que no aparecen en la tabla de clasificación, Poetiq realizó sus propias evaluaciones, validando cruzadamente su configuración experimental replicando las precisiones oficiales de la tabla de clasificación para los modelos de referencia.

Conclusiones clave

El Meta-System de Poetiq crea automáticamente arneses para tareas específicas a través de la automejora recursiva, sin ajuste fino del modelo ni acceso interno al modelo. GPT 5.5 High con el arnés alcanza el 93,9 % en LCB Pro (25T2), un 4,3 % más que su base de 89,6 %; Gemini 3.1 Pro salta un 12,3 % (78,6 % → 90,9 %) El arnés es independiente del modelo: optimizado usando solo Gemini 3.1 Pro, mejoró todos los demás modelos probados (pesos abiertos y propietarios) sin modificaciones Gemini 3.0 Flash gana 10 puntos porcentuales con el arnés (72,3 % → 82,3 %), superando a Claude Opus 4.7, Gemini 3.1 Pro y GPT 5.2 Alto a pesar de ser más pequeño y más barato Kimi K2.6 muestra la mayor ganancia con ~30 puntos porcentuales (50,0% → 79,9%); Nemotron 3 Super 120B mejora un 12,8%

Consulta los detalles técnicos aquí. Además, no dude en seguirnos en Twitter y no olvide unirse a nuestro SubReddit de más de 150.000 ML y suscribirse a nuestro boletín. ¡Esperar! estas en telegrama? Ahora también puedes unirte a nosotros en Telegram.

¿Necesita asociarse con nosotros para promocionar su repositorio de GitHub O su página principal de Hugging O su lanzamiento de producto O seminario web, etc.? Conéctate con nosotros