Operai Model obtiene una puntuación de medalla de oro en la Olimpiada Internacional de Matemáticas y avanza hacia la inteligencia general artificial

Unos meses antes de la Olimpiada Matemática Internacional de 2025 (OMI) en julio, un equipo de tres personas en OpenAI hizo una larga apuesta de que podrían usar los brutalmente problemas de la competencia para entrenar a un inteligencia artificial modelo para pensar por su cuenta durante horas para que fuera capaz de escribir pruebas matemáticas. Su objetivo no era simplemente crear una IA que pudiera hacer matemáticas complejas, sino una que podría evaluar la ambigüedad y los matices: las habilidades que AIS necesitarán si algún día asumirán muchas tareas desafiantes del mundo real. De hecho, estas son precisamente las habilidades necesarias para crear inteligencia general artificialo AGI: comprensión y razonamiento a nivel humano.

La OMI, celebrada este año en Sunshine Coast de Australia, es la principal competencia de matemáticas del mundo para los estudiantes de secundaria, que reúne a los principales contendientes de más de 100 países. A todos se les dan los mismos seis problemas, tres por día, cada uno con un valor de siete puntos, para resolver durante dos días. Pero estos problemas no se parecen en nada a lo que probablemente recuerdes de la escuela secundaria. En lugar de una breve respuesta numérica, cada uno exige un razonamiento sostenido y la creatividad en forma de una prueba escrita de páginas de largo. Estos argumentos lógicos y paso a paso tienen que abarcar muchos campos de matemáticas—Cactamente el tipo de problemas que, hasta este año, los sistemas de IA fallaron en espectacularmente.

El equipo de Investigadores e Ingenieros de OpenAI, Alex Wei, Sheryl Hsu y Noam Brown, usó un modelo de razonamiento de propósito general: una IA diseñada para “pensar” a través de problemas desafiantes al romperlos en pasos, verificar su propio trabajo y adaptar su enfoque a medida que avanza. Aunque los sistemas de IA no podían competir oficialmente como participantes, la prueba notoriamente dura sirvió como una demostración de lo que pueden hacer, y el AIS abordó las preguntas de este año en el mismo formato de prueba y con las mismas limitaciones que los participantes humanos. Al recibir las preguntas, el sistema experimental del equipo funcionó para dos sesiones de 4.5 horas (tal como lo hicieron los estudiantes concursantes), sin herramientas o Internet, no tenía absolutamente ninguna ayuda externa de herramientas como motores de búsqueda o software diseñado para matemáticas. Las pruebas que produjeron fueron calificadas por tres ex medallistas de la OMI y Publicado en línea. La IA completó cinco de los seis problemas correctamente, recibiendo 35 de 42 puntos, el mínimo requerido para una medalla de oro OMI. (El sistema de IA DeepMind de Google también logró ese puntaje este año). De 630 competidores, solo 26 estudiantes, o 4 por ciento, superaron a la IA; Cinco estudiantes lograron 42 perfectos. Dado que hace un año, los sistemas de IA basados ​​en el lenguaje como OpenAi’s lucharon por hacer matemáticas primarias, los resultados fueron un salto dramático en el rendimiento.


Sobre el apoyo al periodismo científico

Si está disfrutando de este artículo, considere apoyar nuestro periodismo galardonado con suscripción. Al comprar una suscripción, está ayudando a garantizar el futuro de las historias impactantes sobre los descubrimientos e ideas que dan forma a nuestro mundo hoy.


En la siguiente conversación, Científico americano Habló con dos miembros del equipo de Operai, Alex Wei y Sheryl Hsu, para discutir cómo realizaron su trabajo, por qué la falta de respuesta del modelo a la sexta pregunta fue en realidad un paso importante para abordar el problema de la “alucinación” de la IA y cómo el desarrollo de un sistema capaz de escribir pruebas complejas podría ayudar a conducir a la inteligencia general artificial.

[An edited transcript of the interview follows.]

¿Qué te llevó a comenzar de repente a preparar un modelo de IA para la OMI solo unos meses antes de la competencia? ¿Cuál era la chispa?

Wei: Había estado pensando en pruebas matemáticas durante bastante tiempo. Estoy en un equipo de OpenAi llamado Mathgen. Acabábamos de ver los resultados progresar mucho. Sentimos que teníamos una oportunidad para obtener un modelo que podría funcionar realmente bien en la OMI, y queríamos hacer una carrera loca para llegar allí.

HSU: Solía ​​hacer concursos de matemáticas. [Wei] Solía ​​hacer concursos de matemáticas: era mucho mejor que yo. El IMO es definitivamente bien conocido dentro del [AI research] Comunidad, incluso entre los investigadores de OpenAI. Así que fue realmente inspirador presionar específicamente para eso.

¿Puede hablar sobre su decisión de trabajar con un sistema de IA de propósito general en lugar de un sistema que fue diseñado específicamente para responder problemas matemáticos?

Wei: La filosofía es que queremos construir IA de propósito general y desarrollar métodos que no solo funcionen para las matemáticas. Las matemáticas son un muy buen campo de pruebas para la IA porque es bastante objetivo: si tiene una prueba, es más fácil obtener un consenso sobre si es correcto. Eso es más difícil para, por ejemplo, poesía, tendrás más desacuerdo entre los lectores. Y los problemas de la OMI son muy difíciles, por lo que queríamos abordar problemas difíciles con los métodos de propósito general con la esperanza de que también se apliquen a dominios más allá de las matemáticas.

HSU: También diría que el objetivo en Operai es construir AGI, no es necesariamente escribir documentos o ganar competiciones. Era importante que todo lo que hicimos para este proyecto también fuera útil para el objetivo más grande de construir AGI y mejores modelos que los usuarios realmente puedan usar.

¿De qué manera podría un modelo de razonamiento ganar un oro en la OMI ayudar a conducir a AGI?

Wei: Una perspectiva es pensar en términos de cuánto tiempo llevan tareas. Hace un año, ChatGPT solo podía hacer problemas matemáticos muy básicos. Hace dos años, e incluso hace un año y medio, a menudo pensábamos en los problemas matemáticos de la escuela de grado que encontrarías en la tarea de quinto grado. Para alguien realmente bueno en matemáticas, los toman uno o dos segundos para leer y resolver. Luego comenzamos a evaluar usando AIME [the American Invitational Mathematics Examination, a 15-question high school math contest]. Eso lleva alrededor de 10 minutos por problema, con aproximadamente tres horas para 15 problemas. La OMI es de cuatro horas y media por solo tres problemas, esos son 90 minutos por problema. Chatgpt comenzó siendo bueno para preguntas rápidas. Ahora es mejor en tareas de mayor rendimiento, como “¿Puedes editar este párrafo para mí?” A medida que AI mejora, puede expandir el horizonte temporal de las tareas, y puede ver esa progresión claramente en matemáticas.

HSU: Otro aspecto es que los modelos de razonamiento eran previamente muy buenos en tareas que son fáciles de verificar. Si está resolviendo un problema matemático no basado en resistencia, hay una respuesta numéricamente correcta. Es fácil de comprobar. Pero en el mundo real, y en las tareas que la gente realmente quiere ayuda, es más complejo. Hay matices: tal vez sea principalmente correcto pero tiene algunos errores; Tal vez sea correcto, pero podría estilizarse mejor. Las matemáticas basadas en pruebas no son triviales de evaluar. Si pensamos en AGI, esas tareas no serán fáciles de juzgar como correctas o no; Estarán más libremente especificados y más difíciles en general.

¿Cuál fue el proceso para capacitar al modelo?

WEI: En general, el aprendizaje de refuerzo entrena un modelo al recompensar el buen comportamiento y penalizar el mal comportamiento. Si refuerza repetidamente el buen comportamiento y desalienta el mal comportamiento, es más probable que el modelo exhiba el buen comportamiento.

HSU: Hacia el final, también ampliamos la computa de Test -Time [how long the AI model was able to “think” before answering]. Anteriormente, para un humano, los problemas de este tipo pueden ser unos minutos; Ahora estábamos escalando hasta horas. Ese tiempo de pensamiento extra dio ganancias sorprendentes. Hubo un momento en que ejecutamos evaluaciones en nuestro conjunto de pruebas internas que tardaron mucho tiempo debido al aumento del cómputo de la prueba. Cuando finalmente miramos los resultados, y Alex los calificó, viendo el progreso me hizo pensar que el oro podría estar al alcance. Eso fue bastante emocionante.

En la prueba de la OMI, el modelo que desarrolló obtuvo cinco de seis respuestas correctas. Pero con la sexta pregunta, el modelo no trató de proporcionar una respuesta. ¿Puedes contarme más sobre la importancia de esta respuesta?

Wei: El modelo sabiendo lo que no sabe fue uno de los primeros signos de [progress] Vimos. Hoy, si usa ChatGPT, a veces verá “alucinaciones”: los modelos no saben de manera confiable cuándo no lo saben. Esa capacidad no es específica para las matemáticas. Me encantaría que, para las preguntas cotidianas, el modelo pudiera decir honestamente cuándo no sabe, en lugar de dar una respuesta, debo verificar de forma independiente.

¿Qué tipo de impacto podría tener su trabajo en este modelo en modelos futuros?

HSU: Todo lo que hicimos para este proyecto es bastante general, es poder calificar los resultados que no son respuestas individuales y trabajar en problemas duros durante mucho tiempo mientras progresan constantemente. Esos contribuyeron mucho al éxito aquí, y ahora nosotros y otros en OpenAI los estamos aplicando más allá de las matemáticas. No está en GPT – 5, pero en modelos futuros, estamos entusiasmados de integrar estas capacidades.

Wei: Si nos fijamos en las soluciones que publicamos públicamente para los problemas de la OMI, algunos son muy largos, cinco a 10 páginas. Este modelo puede generar salidas largas que son consistentes y coherentes, sin errores. Muchos modelos actuales de estado de arte no pueden producir un informe de cinco páginas totalmente coherente. Estoy emocionado de que esta atención y precisión ayuden en muchos otros dominios.