La IA obtiene una ‘C–’ en su prueba de matemáticas más difícil hasta el momento

La mejor prueba hasta ahora del temple matemático de la inteligencia artificial ha publicado su primera ronda oficial de resultados. El veredicto es que los modelos de lenguajes grandes (LLM, por sus siglas en inglés) están surgiendo como asistentes útiles, aunque profundamente defectuosos, para la investigación matemática.

Organizado por un equipo de destacados matemáticos, el proyecto “First Proof” es una respuesta a la creciente fijación de las empresas de inteligencia artificial por utilizar matemáticas avanzadas como punto de referencia para sus productos, independientemente de si esas métricas reflejan los problemas que realmente preocupan a los matemáticos profesionales. Los resultados de una ronda piloto en febrero fueron mixtos: los opacos esfuerzos internos de las empresas superaron ampliamente a sus modelos públicos.

Este último lote de pruebas implica una gama más amplia de problemas matemáticos y protocolos más rigurosos para sus participantes, algo que solo aceptaron OpenAI y un trío de grupos académicos. Los resultados nuevamente fueron mixtos, con seis o siete de los 10 problemas respondidos esencialmente correctamente por al menos una IA. Aunque el rendimiento máximo continúa mejorando, los modelos también producen grandes cantidades de basura como subproducto, lo que requiere intervenciones heroicas para separar el sentido de la basura.

Sobre el apoyo al periodismo científico

Si está disfrutando de este artículo, considere apoyar nuestro periodismo galardonado suscribiéndose. Al comprar una suscripción, ayudas a garantizar el futuro de historias impactantes sobre los descubrimientos y las ideas que dan forma a nuestro mundo actual.

“Sentimos firmemente que si vamos a prestar un servicio público para la comunidad en general, necesitamos probar modelos disponibles públicamente”, dice Lauren Williams, matemática de la Universidad de Harvard y miembro del equipo de First Proof. Eso limitó a los participantes al ChatGPT-5.5 Pro de OpenAI y tres modelos construidos por grupos del Instituto Federal Suizo de Tecnología de Zurich (ETH Zurich) y la Universidad de Aarhus en Dinamarca, la Universidad de California, Los Ángeles y la Universidad de Princeton.

El equipo solicitó problemas a matemáticos de una gran variedad de áreas temáticas. También empleó calificadores expertos a quienes se les pagó para evaluar las respuestas de las IA. “Calificar una solución generada por IA es una tarea dolorosa e ingrata”, afirma Williams. Los estudiantes se reunieron la semana pasada en el Centro de Ciencias y Aplicaciones Matemáticas de Harvard para dos días de revisión intensiva por “pares”, acelerando un proceso que, para una prueba típica de matemáticas, lleva medio año o más.

El equipo consideró que una prueba era básicamente correcta si sus defectos eran menores y podían corregirse fácilmente, un estándar comúnmente aplicado por las revistas de matemáticas bajo la frase “aceptar con revisiones menores”. Algunas respuestas, sin embargo, cayeron al borde de este umbral un tanto turbio, de ahí el ligero cambio en las puntuaciones finales.

Los resultados reflejaron las tendencias recientes del avance continuo de la IA en las matemáticas. Para resolver cualquier problema dado, los modelos son particularmente hábiles en desenterrar referencias oscuras de la literatura y reflexionar incansablemente sobre técnicas matemáticas muy gastadas para posibles nuevas aplicaciones. En un caso, la IA empleó una estrategia que los autores del problema habían identificado pero que encontraron demasiado tediosa para seguir, dice Mohammed Abouzaid, matemático de la Universidad de Stanford y miembro del equipo de First Proof. Pero gracias a la resistencia desenfrenada del LLM (impulsada, por supuesto, por una infraestructura informática costosa e invisible), logró salir adelante.

Gran parte de los últimos avances provienen de trucos inteligentes detrás de escena. Un modelo de última generación adaptado a las matemáticas, como ChatGPT-5.5 Pro (que resolvió cuatro o cinco problemas correctamente), no es en realidad un modelo en absoluto. En realidad, se trata de varios modelos combinados en un marco opaco y unificado. Un LLM básico, ante un problema matemático sin resolver, simplemente lo evadirá diciendo que es demasiado difícil o, en cambio, alucinará con una solución o cita sin sentido. Resulta que incluso los LLM pueden ser vagos. Las empresas y los académicos contrarrestan esto utilizando otros LLM para verificar automáticamente el trabajo del modelo base, brindar retroalimentación y presionarlo para que se esfuerce más. “Estás haciendo que la IA persista y continúe trabajando para solucionar el problema”, dice Abouzaid.

Este “andamio” marca la diferencia. IMProofBench, construido por científicos de ETH Zurich y la Universidad de Aarhus, tiene el mismo modelo ChatGPT en su núcleo. Pero ese modelo, cuando se estanca, puede consultar un “consejo” de otros LLM que incluyen a Claude de Anthropic y Gemini de Google. Este Frankenstein de modelos obtuvo la mejor puntuación del grupo, seis o siete sobre 10.

Pero el costo también es significativo. En algunos casos, dice Abouzaid, las legiones de LLM superpuestos acumularon casi $1,000 en cargos de consulta, solo para obtener la respuesta incorrecta. A Abouzaid le preocupa un futuro en el que las propuestas de subvenciones contengan grandes líneas presupuestarias para la compra de tokens de empresas de tecnología. “Realmente creo que se trata de una cuestión económica: sobre la financiación y la productividad de la investigación”, afirma.

Los modelos también persistieron en su flagrante violación de las normas académicas. “Faltaban muchas citas”, dice Williams. “Si fuera un humano, se podría llamar plagio”. Espera que la comunidad matemática pueda presionar a las empresas de inteligencia artificial para que alineen sus productos con la ética científica.

La financiación para esta ronda de pruebas provino de fundaciones filantrópicas, así como de donaciones ilimitadas de importantes empresas de inteligencia artificial, incluida Anthropic, aunque no presentó su modelo para pruebas.

El equipo planea publicar problemas adicionales durante las próximas semanas para que tanto aficionados como profesionales prueben sus modelos favoritos. Dicen que la próxima ronda oficial será en otoño.

“Estoy realmente emocionado por el hecho de que hemos ejecutado algo que está mucho más cerca de ser un punto de referencia adecuado, en lugar de un experimento”, dice Williams. “Nos esforzamos mucho en ser lo más objetivos y transparentes posible y creo que hemos hecho un trabajo bastante bueno”.

Es hora de defender la ciencia

Si te ha gustado este artículo, me gustaría pedirte tu apoyo. Científico americano ha servido como defensor de la ciencia y la industria durante 180 años, y ahora mismo puede ser el momento más crítico en esos dos siglos de historia.

he sido un Científico americano suscriptor desde que tenía 12 años y me ayudó a moldear mi forma de ver el mundo. Ciencia-Am Siempre me educa y me deleita, e inspira una sensación de asombro por nuestro vasto y hermoso universo. Espero que también lo haga por ti.

Si te suscribes a Científico americanousted ayuda a garantizar que nuestra cobertura se centre en investigaciones y descubrimientos significativos; que tenemos los recursos para informar sobre las decisiones que amenazan a los laboratorios en todo Estados Unidos; y que apoyemos a los científicos tanto en ciernes como en activo en un momento en el que con demasiada frecuencia el valor de la ciencia misma pasa desapercibido.

A cambio, obtiene noticias esenciales, podcasts cautivadores, infografías brillantes, boletines informativos imperdibles, vídeos imprescindibles, juegos desafiantes y los mejores escritos e informes del mundo científico. Incluso puedes regalarle a alguien una suscripción.

Nunca ha habido un momento más importante para que nos levantemos y demostremos por qué la ciencia es importante. Espero que nos apoyes en esa misión.