First Proof es la prueba de matemáticas más difícil de la IA hasta el momento. Los resultados son mixtos

La IA acaba de recibir su prueba de matemáticas más difícil hasta el momento. Los resultados son mixtos

Los expertos le dieron a AI 10 problemas matemáticos para resolver en una semana. OpenAI, investigadores y aficionados dieron lo mejor de sí

Fotografía en blanco y negro de una sala llena de estudiantes adolescentes inclinados sobre sus escritorios realizando un examen.

Archivos provisionales / Colaborador a través de Getty Images

El veredicto, al parecer, está claro: la inteligencia artificial no va a sustituir a los matemáticos.

Ésa es la conclusión inmediata del desafío de la “Primera prueba”, quizás la prueba más sólida hasta el momento de la capacidad de los modelos de lenguajes grandes (LLM) para realizar investigaciones matemáticas. Los resultados de la prueba, establecidos por 11 destacados matemáticos el 5 de febrero, se publicaron temprano en la mañana del día de San Valentín. Es demasiado pronto para decir de manera concluyente cuántos de los 10 problemas matemáticos incluidos en el desafío fueron resueltos por IA sin ayuda humana. Pero una cosa está clara: ninguno de los LLM estuvo cerca de resolverlos todos.

Los matemáticos detrás de First Proof presentaron a la IA 10 “lemas”, un término matemático para teoremas menores que allanan el camino hacia un resultado mayor. Estos problemas son el activo comercial del matemático en activo, el tipo de miniproblema que uno podría entregar a un estudiante de posgrado talentoso. Los matemáticos buscaban problemas que requirieran cierta originalidad para resolverse, no sólo una combinación de técnicas estándar, según Mohammed Abouzaid, profesor de matemáticas en la Universidad de Stanford y miembro del equipo de First Proof.

Sobre el apoyo al periodismo científico

Si está disfrutando de este artículo, considere apoyar nuestro periodismo galardonado suscribiéndose. Al comprar una suscripción, ayudas a garantizar el futuro de historias impactantes sobre los descubrimientos y las ideas que dan forma a nuestro mundo actual.

El desafío, si bien destaca las limitaciones de la IA, también pone de relieve una incipiente subcultura entusiasta de la IA dentro de la comunidad matemática. Los foros de discusión en línea y las cuentas de redes sociales dedicadas a las matemáticas se vieron inundados de supuestas pruebas tanto de los mejores matemáticos como de estudiantes universitarios deshonestos. Y subrayó la seriedad con la que las nuevas empresas de inteligencia artificial, incluido OpenAI, el fabricante de ChatGPT, están asumiendo el desafío de enseñar a un LLM a hacer matemáticas.

“No esperábamos que hubiera tanta actividad”, dice Abouzaid. “No esperábamos que las empresas de IA se lo tomaran tan en serio y le dedicaran tanto trabajo”.

El equipo de First Proof reveló las soluciones a los 10 desafíos temprano el sábado y publicó sobre sus propias experiencias al intentar que los LLM resolvieran los problemas. Descubrieron que las IA podían generar pruebas fiables de cada problema, pero sólo dos eran correctas: las del noveno y décimo problema. Y resultó que ya existía una prueba que era casi idéntica al noveno problema. El primer problema también estaba “contaminado” (se archivó un boceto de una prueba del sitio web de su autor, miembro del equipo y ganador de la medalla Fields en 2014, Martin Hairer), pero los LLM aún no lograron llenar los vacíos.

El estilo de prueba que idearon los LLM fue particularmente sorprendente, dice Abouzaid. “Las soluciones correctas que he visto en los sistemas de IA tienen el sabor de las matemáticas del siglo XIX”, afirma. “Pero estamos tratando de construir las matemáticas del siglo XXI”.

Las presentaciones externas no parecieron tener mejores resultados. Algunas presentaciones parecieron emplear diversos grados de participación humana, y varias aparentemente fueron el resultado de diálogos de una semana de duración verificados por matemáticos. Es importante destacar que las reglas de la Primera Prueba no permiten la entrada o la presión matemática humana.

“Una vez que hay humanos involucrados, ¿cómo juzgamos cuánto es humano y cuánto es IA?” dice Lauren Williams, profesora de Matemáticas Dwight Parker Robinson en la Universidad de Harvard y una de las matemáticas que creó First Proof.

OpenAI publicó su trabajo el sábado, el resultado de una carrera de una semana utilizando sus modelos internos de IA más nuevos trabajando con “comentarios de expertos” de matemáticos humanos. El científico jefe de la compañía, Jakub Pachocki, dijo en una publicación en las redes sociales que creen que seis de sus diez soluciones “tienen muchas posibilidades de ser correctas”. Los matemáticos ya han señalado posibles agujeros en al menos uno de esos seis.

Aparte de la cantidad de asistencia humana que tuvieron las IA, la gran mayoría de las presentaciones parecen ser un montón de tonterías muy convincentes. Incluso antes de que terminara el desafío, los expertos ya estaban cuestionando una serie de supuestas soluciones que inicialmente parecían creíbles.

Los expertos tardarán días en examinar adecuadamente las presentaciones. Y juzgar si una prueba es verdaderamente “original” es incluso más difícil que juzgar si es correcta. “Nada en matemáticas carece totalmente de precedentes”, afirma Daniel Litt, matemático de la Universidad de Toronto, que no formó parte del equipo de First Proof.

“Estamos pensando en esto como un experimento. Nuestro objetivo era obtener comentarios”, dice Abouzaid. El equipo escribe que están planeando una segunda ronda con controles más estrictos y que se darán a conocer más detalles el 14 de marzo.

Para algunos matemáticos que han estado siguiendo el progreso de la IA, los tibios resultados coinciden con sus expectativas. “Esperaba tal vez dos o tres soluciones inequívocamente correctas a partir de modelos disponibles públicamente”, dice Litt. “Diez me hubieran sorprendido mucho”.

Aún así, incluso obtener algunas soluciones válidas a problemas de nivel de investigación a partir de una IA probablemente habría sido imposible hace apenas unos meses. “Ya he oído a colegas que están en shock”, dice Scott Armstrong, matemático de la Universidad de la Sorbona en Francia. “Estas herramientas están llegando a cambiar las matemáticas, y está sucediendo ahora”.

Pero para otros que siguen de cerca los logros de la IA, esta no fue una gran demostración.

“Los modelos parecen haber tenido problemas”, dice Kevin Barreto, estudiante universitario de la Universidad de Cambridge, que no formó parte del equipo de First Proof. Recientemente utilizó IA para resolver uno de los problemas de Erdó, una serie de desafíos planteados por el matemático húngaro Paul Erdós. “Para ser honesto, sí, estoy un poco decepcionado”.

Es hora de defender la ciencia

Si te ha gustado este artículo, me gustaría pedirte tu apoyo. Científico americano ha servido como defensor de la ciencia y la industria durante 180 años, y ahora mismo puede ser el momento más crítico en esos dos siglos de historia.

he sido un Científico americano suscriptor desde que tenía 12 años y me ayudó a moldear mi forma de ver el mundo. Ciencia-Am Siempre me educa y me deleita, e inspira una sensación de asombro por nuestro vasto y hermoso universo. Espero que también lo haga por ti.

Si te suscribes a Científico americanousted ayuda a garantizar que nuestra cobertura se centre en investigaciones y descubrimientos significativos; que tenemos los recursos para informar sobre las decisiones que amenazan a los laboratorios en todo Estados Unidos; y que apoyemos a los científicos tanto en ciernes como en activo en un momento en el que con demasiada frecuencia el valor de la ciencia misma pasa desapercibido.

A cambio, obtiene noticias esenciales, podcasts cautivadores, infografías brillantes, boletines informativos imperdibles, vídeos imprescindibles, juegos desafiantes y los mejores escritos e informes del mundo científico. Incluso puedes regalarle a alguien una suscripción.

Nunca ha habido un momento más importante para que nos levantemos y demostremos por qué la ciencia es importante. Espero que nos apoyes en esa misión.