¿Los puntos de referencia de su código LLM realmente rechazan soluciones de complejidad incorrecta y violaciones de protocolos interactivos, o están pasando pruebas unitarias poco especificadas? Un equipo de investigadores de UCSD, NYU, Universidad de Washington, Universidad de Princeton, Canyon Crest Academy, OpenAI, UC Berkeley, MIT, Universidad de Waterloo y Sentient Labs presentan AutoCode, un nuevo marco de IA que permite a los LLM crear y verificar problemas de programación competitivos, reflejando el flujo de trabajo de los planteadores de problemas humanos. AutoCode reformula la evaluación de modelos de razonamiento de código al tratar la formulación de problemas (no sólo la resolución de problemas) como la tarea objetivo. El sistema capacita a los LLM para que produzcan declaraciones de calidad competitiva, datos de pruebas y lógica de veredicto que coincidan en gran medida con los jueces oficiales en línea. En un punto de referencia de 7.538 problemas creado a partir de conjuntos de datos anteriores, AutoCode logra un 91,1% de coherencia con los juicios oficiales (FPR 3,7%, FNR 14,1%). En 720 problemas recientes de Codeforces separados y más difíciles (incluidas las tareas interactivas), el marco completo informa 98,7% de consistencia, 1,3% FPR, 1,2% FNR.
¿Por qué la formulación de problemas es importante para la evaluación?
Los puntos de referencia de código público a menudo se basan en pruebas poco especificadas que dejan pasar soluciones de complejidad incorrecta o atajos. Eso infla las puntuaciones y contamina las señales de refuerzo (recompensando tácticas frágiles). El enfoque del validador primero de AutoCode y la generación de pruebas adversas tienen como objetivo reducir los falsos positivos (FPR) (programas incorrectos que pasan) y los falsos negativos (FNR) (programas correctos rechazados debido a entradas con formato incorrecto).
El bucle central: Validador → Generador → Verificador
AutoCode ejecuta un circuito cerrado que refleja los flujos de trabajo de concursos humanos, pero cada paso se selecciona entre los candidatos generados por LLM mediante pruebas específicas en el marco.
1) Validador (minimiza FNR haciendo cumplir la legalidad de la entrada)
El sistema primero le pide a un LLM que sintetice 40 entradas de evaluación: 10 válidas y 30 ilegales casi válidas (por ejemplo, violaciones de límites de una en una). Luego solicita al LLM tres programas de validación candidatos y selecciona el que mejor clasifica estos casos. Esto evita que las soluciones “correctas” fallen debido a datos con formato incorrecto.
2) Generador (reducir FPR por cobertura adversaria)
Tres estrategias complementarias producen casos de prueba:
• Agotamiento de datos pequeños para la cobertura de límites,
• Casos aleatorios + extremos (desbordamientos, precisión, colisiones hash),
• Estructuras que inducen TLE para romper con soluciones de complejidad errónea.
Los casos no válidos son filtrados por el validador seleccionado; luego, los casos se deduplican y se equilibran antes del muestreo.
3) Comprobador (lógica de veredicto)
El verificador compara los resultados de los concursantes con la solución de referencia bajo reglas complejas. AutoCode genera nuevamente 40 escenarios de verificación y tres programas de verificación candidatos, mantiene solo escenarios con entradas aprobadas por el validador y selecciona el mejor verificador según su precisión frente a los 40 escenarios etiquetados.
4) Interactor (para problemas interactivos)
Para las tareas que requieren diálogo con el juez, AutoCode introduce un interactor basado en mutantes: realiza pequeñas ediciones lógicas (“mutantes”) en la solución de referencia, selecciona interactores que aceptan la solución verdadera pero rechazan los mutantes, maximizando la discriminación. Esto aborda una brecha en conjuntos de datos públicos anteriores que evitaban los interactivos.
La verificación dual permite nuevos problemas (no solo pruebas para los existentes)
AutoCode puede generar nuevas variantes de problemas a partir de un problema de Codeforces “semilla” aleatorio (<2200 Elo). El LLM redacta una nueva declaración y dos soluciones: una referencia eficiente y una línea de base de fuerza bruta más simple. Se acepta un problema solo si la salida de referencia coincide con la fuerza bruta en todo el conjunto de pruebas generado (la fuerza bruta puede TLE en casos grandes, pero sirve como verdad fundamental en casos pequeños/exhaustivos). Este protocolo de verificación dual filtra aproximadamente el 27 % de los elementos propensos a errores, lo que eleva la corrección de la solución de referencia del 86 % al 94 % antes de la revisión humana.
Luego, los expertos humanos califican a los supervivientes según su solucion, corrección de la solución, calidad, novedad y dificultad. Después del filtrado, el 61,6% son utilizables para entrenamiento de modelos, el 76,3% para entrenamiento humano y el 3,2% son problemas de nivel ICPC/IOI. La dificultad generalmente aumenta en relación con la semilla, y el aumento de la dificultad se correlaciona con la calidad percibida.
Entendiendo los resultados
Problemas existentes (7.538 en total; 195.988 envíos humanos). AutoCode: 91,1 % de consistencia, 3,7 % FPR, 14,1 % FNR, frente a 72,9 %–81,0 % de consistencia para generadores anteriores (CodeContests, CodeContests+, TACO, HardTests).
Problemas recientes de Codeforces (720, sin filtrar; incluye interactivos). AutoCode: 98,7% de consistencia, 1,3% FPR, 1,2% FNR. Las ablaciones muestran que las tres estrategias generadoras y la optimización rápida contribuyen: eliminar la optimización rápida reduce la consistencia al 98,0 % y duplica con creces la FNR al 2,9 %.
Conclusiones clave
AutoCode combina un bucle Validador-Generador-Verificador (+Interactor) con verificación dual (referencia versus fuerza bruta) para crear conjuntos de pruebas de nivel de competencia y nuevos problemas. En problemas pendientes, los conjuntos de pruebas de AutoCode alcanzan ~99% de consistencia con los jueces oficiales, superando a generadores anteriores como HardTests (<81%). Para tareas recientes de Codeforces (incluidas las interactivas), el marco completo informa una coherencia de ~98,7 % con ~1,3 % FPR y ~1,2 % FNR. El interactor basado en mutantes acepta de manera confiable la solución verdadera mientras rechaza las variantes mutadas, lo que mejora la evaluación de problemas interactivos. Los expertos humanos califican una fracción considerable de los elementos generados por AutoCode como utilizables para entrenamiento y una parte no trivial como de calidad para concurso, en línea con los objetivos del programa LiveCodeBench Pro.
AutoCode es una solución práctica para los puntos de referencia de código actuales. Centra la configuración de problemas y utiliza una canalización de Validador-Generador-Verificador (+Interactor) de circuito cerrado con verificación dual (referencia versus fuerza bruta). Esta estructura reduce los falsos positivos/negativos y produce coherencia alineada con los jueces (≈99% en problemas retenidos; 98,7% en Codeforces recientes, incluidos los interactivos). El enfoque estandariza la legalidad de las restricciones, la cobertura adversarial y la evaluación consciente del protocolo, lo que hace que las señales de recompensa de RL posteriores sean más limpias. Su ubicación en LiveCodeBench Pro se ajusta a un programa de evaluación resistente a las alucinaciones que enfatiza el rigor comprobado por expertos.
Consulte el artículo y el proyecto. No dude en consultar nuestra página de GitHub para tutoriales, códigos y cuadernos. Además, no dude en seguirnos en Twitter y no olvide unirse a nuestro SubReddit de más de 100.000 ML y suscribirse a nuestro boletín. ¡Esperar! estas en telegrama? Ahora también puedes unirte a nosotros en Telegram.
Asif Razzaq es el director ejecutivo de Marktechpost Media Inc.. Como empresario e ingeniero visionario, Asif está comprometido a aprovechar el potencial de la inteligencia artificial para el bien social. Su esfuerzo más reciente es el lanzamiento de una plataforma de medios de inteligencia artificial, Marktechpost, que se destaca por su cobertura en profundidad del aprendizaje automático y las noticias sobre aprendizaje profundo que es técnicamente sólida y fácilmente comprensible para una amplia audiencia. La plataforma cuenta con más de 2 millones de visitas mensuales, lo que ilustra su popularidad entre el público.
🙌 Siga MARKTECHPOST: agréguenos como fuente preferida en Google.