Cada año, los países que compiten en la Olimpiada Internacional de Matemáticas (OMI) llegan con un folleto con sus mejores y más originales problemas. Esos folletos se comparten entre las delegaciones y luego desaparecen silenciosamente. Nadie los había recopilado sistemáticamente, limpiado y puesto a disposición, ni para los investigadores de IA que prueban los límites del razonamiento matemático, ni para los estudiantes de todo el mundo que se entrenan para estas competiciones en gran medida por su cuenta.
Los investigadores del Laboratorio de Ciencias de la Computación e Inteligencia Artificial (CSAIL) del MIT, la Universidad de Ciencia y Tecnología Rey Abdullah (KAUST) y la empresa HUMAIN han hecho exactamente eso.
MathNet es el conjunto de datos de alta calidad más grande de problemas matemáticos basados en pruebas jamás creado. Comprende más de 30.000 problemas y soluciones escritos por expertos que abarcan 47 países, 17 idiomas y 143 competiciones, y es cinco veces más grande que el siguiente conjunto de datos más grande de su tipo. El trabajo se presentará en la Conferencia Internacional sobre Representaciones del Aprendizaje (ICLR) en Brasil a finales de este mes.
Lo que hace diferente a MathNet no es sólo su tamaño, sino también su amplitud. Los conjuntos de datos anteriores a nivel de Olimpíadas provienen casi exclusivamente de competiciones en Estados Unidos y China. MathNet abarca docenas de países en seis continentes, cubre 17 idiomas, incluye problemas y soluciones basados en texto e imágenes y abarca cuatro décadas de matemáticas competitivas. El objetivo es capturar toda la gama de perspectivas matemáticas y tradiciones de resolución de problemas que existen en la comunidad matemática global, no sólo las más visibles.
“Cada país trae un folleto con sus problemas más novedosos y creativos”, dice Shaden Alshammari, estudiante de doctorado del MIT y autor principal del artículo. “Comparten los folletos entre ellos, pero nadie hizo el esfuerzo de recogerlos, limpiarlos y subirlos a Internet”.
Para crear MathNet fue necesario rastrear 1595 volúmenes PDF con un total de más de 25 000 páginas, que abarcan documentos digitales y escaneos de décadas de antigüedad en más de una docena de idiomas. Una parte importante de ese archivo provino de una fuente poco probable: Navid Safaei, una figura y coautor de la comunidad de la OMI desde hace mucho tiempo que había estado recopilando y escaneando esos folletos a mano desde 2006. Su archivo personal constituía gran parte de la columna vertebral del conjunto de datos.
El abastecimiento importa tanto como la escala. Mientras que la mayoría de los conjuntos de datos matemáticos existentes extraen problemas de foros comunitarios como Art of Problem Solving (AoPS), MathNet se basa exclusivamente en folletos oficiales de competencia nacional. Las soluciones contenidas en esos folletos están escritas por expertos y revisadas por pares, y a menudo ocupan varias páginas, y los autores analizan varios enfoques para el mismo problema. Esa profundidad proporciona a los modelos de IA una señal mucho más rica para aprender razonamiento matemático que las soluciones informales más breves típicas de los conjuntos de datos de origen comunitario. También significa que el conjunto de datos es realmente útil para los estudiantes: cualquiera que se esté preparando para la OMI o una competencia nacional ahora tiene acceso a una colección centralizada y con capacidad de búsqueda de problemas de alta calidad y soluciones trabajadas de tradiciones de todo el mundo.
“Recuerdo a muchos estudiantes para quienes era un esfuerzo individual. Nadie en su país los entrenaba para este tipo de competencia”, dice Alshammari, quien compitió en la OMI como estudiante. “Esperamos que esto les brinde un lugar centralizado con problemas y soluciones de alta calidad de los cuales aprender”.
El equipo tiene profundas raíces en la comunidad de la OMI. Sultan Albarakati, coautor, actualmente forma parte de la junta directiva de la OMI y los investigadores están trabajando para compartir el conjunto de datos directamente con la fundación de la OMI. Para validar el conjunto de datos, reunieron un grupo de calificación de más de 30 evaluadores humanos de países como Armenia, Rusia, Ucrania, Vietnam y Polonia, que se coordinaron para verificar miles de soluciones.
“La base de datos MathNet tiene el potencial de ser un excelente recurso tanto para estudiantes como para líderes que buscan nuevos problemas en los que trabajar o la solución a una pregunta difícil”, dice Tanish Patil, subdirector de la OMI de Suiza. “Si bien existen otros archivos de problemas de las Olimpíadas (en particular, los foros de Colecciones de Concursos en AoPS), estos recursos carecen de un sistema de formato estandarizado, soluciones verificadas y metadatos de problemas importantes que los temas y la teoría requieren. También será interesante ver cómo se utiliza este conjunto de datos para mejorar el rendimiento de los modelos de razonamiento, y si pronto podremos responder de manera confiable a una cuestión importante al crear preguntas novedosas de las Olimpíadas: determinar si un problema es verdaderamente original”.
MathNet también funciona como un punto de referencia riguroso para el rendimiento de la IA, y los resultados revelan un panorama más complicado de lo que podrían sugerir los titulares recientes sobre la destreza matemática de la IA. Los modelos Frontier han logrado avances extraordinarios: se dice que algunos han logrado un desempeño con medalla de oro en la OMI y, según los estándares, ahora resuelven problemas que dejarían perplejos a la mayoría de los humanos. Pero MathNet muestra que el progreso es desigual. Incluso GPT-5, el modelo de mayor rendimiento probado, obtuvo un promedio de alrededor del 69,3 por ciento en el principal punto de referencia de MathNet de 6.400 problemas, fallando en casi uno de cada tres problemas de nivel Olimpiada. Y cuando los problemas incluyen cifras, el rendimiento cae significativamente en todos los ámbitos, exponiendo el razonamiento visual como un punto débil constante incluso para los modelos más capaces.
Varios modelos de código abierto obtuvieron una puntuación del 0 por ciento en los problemas del idioma mongol, lo que destaca otra dimensión en la que los sistemas actuales de IA se quedan cortos a pesar de su solidez general.
“Los modelos GPT son igualmente buenos en inglés y en otros idiomas”, afirma Alshammari. “Pero muchos de los modelos de código abierto fallan completamente en idiomas menos comunes, como el mongol”.
La diversidad de MathNet también está diseñada para abordar una limitación más profunda en la forma en que los modelos de IA aprenden matemáticas. Cuando los datos de entrenamiento se inclinan hacia problemas en inglés y chino, los modelos absorben una pequeña parte de la cultura matemática. Un problema de combinatoria rumano o un problema de teoría de números brasileño pueden abordar el mismo concepto subyacente desde un ángulo completamente diferente. Los investigadores argumentan que la exposición a ese rango hace que tanto los humanos como los sistemas de inteligencia artificial sean mejores pensadores matemáticos.
Más allá de la resolución de problemas, MathNet introduce un punto de referencia de recuperación que pregunta si los modelos pueden reconocer cuando dos problemas comparten la misma estructura matemática subyacente, una capacidad que es importante tanto para el desarrollo de la IA como para la propia comunidad matemática. A lo largo de los años, han aparecido problemas casi duplicados en exámenes reales de la OMI porque encontrar equivalencias matemáticas entre diferentes notaciones, idiomas y formatos es realmente difícil, incluso para comités humanos expertos. Al probar ocho modelos de integración de última generación, los investigadores descubrieron que incluso los más fuertes identificaban la coincidencia correcta sólo alrededor del 5 por ciento de las veces en el primer intento, y los modelos frecuentemente clasificaban los problemas estructuralmente no relacionados como más similares que los equivalentes.
El conjunto de datos también incluye un punto de referencia de generación de recuperación aumentada, que prueba si darle a un modelo un problema relacionado estructuralmente antes de pedirle que resuelva uno nuevo mejora el rendimiento. Lo hace, pero sólo cuando el problema recuperado es genuinamente relevante. DeepSeek-V3.2-Speciale ganó hasta 12 puntos porcentuales con una recuperación bien adaptada, mientras que la recuperación irrelevante degradó el rendimiento en aproximadamente el 22 por ciento de los casos.
Alshammari escribió el artículo con Safaei, el ingeniero de IA de HUMAIN, Abrar Zainal, el director de la Academia KAUST, Sultan Albarakati, y colegas del MIT CSAIL: el estudiante de maestría Kevin Wen SB ’25; Mark Hamilton SM ’22, PhD ’25, director principal de ingeniería de Microsoft; y los profesores William Freeman y Antonio Torralba. Su trabajo fue financiado, en parte, por la beca Schwarzman College of Computing y la Fundación Nacional de Ciencias.
MathNet está disponible públicamente en mathnet.csail.mit.edu.