En la reunión secreta de matemáticas, los investigadores luchan por burlar a la IA
Los principales matemáticos del mundo se sorprendieron por cómo es la inteligencia artificial hecha en hacer su trabajo
Yuichiro Chino/Getty Images
En un fin de semana a mediados de mayo, se convocó un cónclave matemático clandestino. Treinta de los matemáticos más reconocidos del mundo viajaron a Berkeley, California, y algunos vinieron de tan lejos como el Reino Unido, los miembros del grupo se enfrentaron en un enfrentamiento con un chatbot de “razonamiento” Eso tenía la tarea de resolver problemas que habían ideado para probar su temple matemático. Después de arrojar preguntas a nivel de profesor en el bot durante dos días, los investigadores se sorprendieron al descubrir que era capaz de responder a algunos de los Los problemas solucionables más difíciles del mundo. “Tengo colegas que literalmente dijeron que estos modelos se están acercando al genio matemático”, dice Ken Ono, matemático de la Universidad de Virginia y líder y juez en la reunión.
El chatbot en cuestión funciona con O4-Miniun llamado Modelo de Lenguaje Gran de Razonamiento (LLM). Operai fue entrenado para ser capaz de hacer deducciones altamente intrincadas. El equivalente de Google, Géminis 2.5 Flashtiene habilidades similares. Al igual que los LLM que impulsaron las versiones anteriores de ChatGPT, O4-Mini aprende a predecir la siguiente palabra en una secuencia. Sin embargo, en comparación con los LLM anteriores, O4-Mini y sus equivalentes son modelos más ligeros, más ágiles que entrenan en conjuntos de datos especializados con un refuerzo más fuerte de los humanos. El enfoque lleva a un chatbot capaz de sumergirse mucho más en problemas complejos en matemáticas que LLM tradicional.
Para rastrear el progreso de O4-Mini, Openai anteriormente Epoch AI tareas, una organización sin fines de lucro que BenchMarks LLMS, se les ocurre 300 preguntas matemáticas cuyas soluciones aún no habían sido publicadas. Incluso los LLM tradicionales pueden responder correctamente muchas preguntas matemáticas complicadas. Sin embargo, cuando la época AI hizo varios de estos modelos estas preguntas, que eran diferentes a las que habían sido entrenadas, los más exitosos pudieron resolver menos del 2 por cientomostrando estos LLM carecía de la capacidad de razonar. Pero O4-Mini demostraría ser muy diferente.
Sobre el apoyo al periodismo científico
Si está disfrutando de este artículo, considere apoyar nuestro periodismo galardonado con suscripción. Al comprar una suscripción, está ayudando a garantizar el futuro de las historias impactantes sobre los descubrimientos e ideas que dan forma a nuestro mundo hoy.
Epoch AI contrató a Elliot Glazer, quien había terminado recientemente su Ph.D. Frontiermathen septiembre de 2024. El proyecto recopiló preguntas novedosas sobre diferentes niveles de dificultad, con los primeros tres niveles que cubren desafíos de pregrado, posgrado y a nivel de investigación. Para febrero de 2025, Glazer descubrió que O4-Mini podría resolver alrededor del 20 por ciento de las preguntas. Luego pasó a un cuarto nivel: 100 preguntas que serían desafiantes incluso para un matemático académico. Solo un pequeño grupo de personas en el mundo sería capaz de desarrollar tales preguntas, y mucho menos responderlas. Los matemáticos que participaron tuvieron que firmar un acuerdo de no divulgación que les requería que se comuniquen únicamente a través de la señal de la aplicación de mensajería. Otras formas de contacto, como el correo electrónico tradicional, podrían ser escaneadas por un LLM y inadvertidamente entrenarlo, contaminando así el conjunto de datos.
El grupo hizo un progreso lento y constante para encontrar preguntas. Pero Glazer quería acelerar las cosas, por lo que Epoch AI organizó la reunión en persona el sábado 17 de mayo y el domingo 18 de mayo. Allí, los participantes finalizarían el lote final de preguntas de desafío. Ono dividió a los 30 asistentes en grupos de seis. Durante dos días, los académicos compitieron contra sí mismos para diseñar problemas que pudieran resolver, pero que dispararían por el bot de razonamiento de IA. Cada problema que el O4-Mini no pudo resolver obtendría al matemático a quien le ocurrió una recompensa de $ 7,500.
Al final de ese sábado por la noche, Ono estaba frustrado con el bot, cuya inesperada destreza matemática estaba frustrando el progreso del grupo. “Se me ocurrieron un problema que los expertos en mi campo reconocerían como una pregunta abierta en la teoría de números, un buen problema de nivel doctoral”, dice. Le pidió a O4-Mini que resuelva la pregunta. Durante los siguientes 10 minutos, Ono observó en el aturdido silencio mientras el bot desplegaba una solución en tiempo real, mostrando su proceso de razonamiento en el camino. El bot pasó los primeros dos minutos buscando y dominando la literatura relacionada en el campo. Luego escribió en la pantalla que quería intentar resolver una versión más simple de “juguete” de la pregunta primero para aprender. Unos minutos más tarde, escribió que finalmente estaba preparado para resolver el problema más difícil. Cinco minutos después de eso, O4-Mini presentó una solución correcta pero atrevida. “Estaba empezando a volverse realmente descarado”, dice Ono, quien también es un consultor matemático independiente para Epoch AI. “Y al final, dice: ‘¡No es necesaria la cita porque el número misterioso fue calculado por mí!'”
Derrotado, Ono saltó a la señal temprano ese domingo por la mañana y alertó al resto de los participantes. “No estaba preparado para competir con un LLM como este”, dice, “nunca antes había visto ese tipo de razonamiento en los modelos. Eso es lo que hace un científico. Eso es aterrador”.
Aunque el grupo finalmente tuvo éxito en encontrar 10 preguntas que obstaculizaron el BOT, los investigadores se sorprendieron por lo lejos que la IA había progresado en el lapso de un año. Ono lo comparó con trabajar con un “colaborador fuerte”. Yang Hui He, matemático en el Instituto de Ciencias Matemáticas de Londres y un pionero temprano del uso de IA en matemáticas, dice: “Esto es lo que haría un muy, muy buen estudiante graduado, de hecho, más”.
El bot también fue mucho más rápido que un matemático profesional, tardó solo minutos en hacer lo que tomaría un experto o meses tan humanos para completar.
Mientras que el entrenamiento con O4-Mini fue emocionante, su progreso también fue alarmante. Ono y él expresan su preocupación de que los resultados del O4-Mini puedan ser confiado demasiado. “Hay pruebas por inducción, prueba por contradicción y luego prueba por intimidación”, dice. “Si dices algo con suficiente autoridad, la gente se asusta. Creo que O4-Mini ha dominado la prueba por intimidación; dice todo con tanta confianza”.
Al final de la reunión, el grupo comenzó a considerar cómo podría ser el futuro para los matemáticos. Las discusiones se convirtieron en las inevitables “Cinco”, cuestiones que incluso los mejores matemáticos no pudieron resolver. Si AI alcanza ese nivel, el papel de los matemáticos sufriría un cambio brusco. Por ejemplo, los matemáticos pueden cambiar a simplemente plantear preguntas e interactuar con los botes de razonamiento para ayudarlos a descubrir nuevas verdades matemáticas, de la misma manera que un profesor con estudiantes graduados. Como tal, Ono predice que fomentar la creatividad en la educación superior será una clave para mantener las matemáticas para las generaciones futuras.
“He estado diciendo a mis colegas que es un grave error decir que la inteligencia artificial generalizada nunca vendrá, [that] Es solo una computadora “, dice Ono.” No quiero agregar a la histeria, pero en muchos sentidos estos modelos de idiomas grandes ya están superando a la mayoría de nuestros mejores estudiantes de posgrado en el mundo “.