DeepMind y Operai reclaman oro en la Olimpiada Matemática Internacional

AIS están mejorando en problemas de matemáticas

Andresr/ Getty Images

Los modelos experimentales de IA de Google Deepmind y OpenAI han logrado una actuación de nivel de oro en la Olimpiada Matemática Internacional (OMI) por primera vez.

Las compañías están acogiendo el momento como un hito importante para los AIS que algún día podrían resolver problemas científicos o matemáticos difíciles, pero los matemáticos son más cautelosos porque los detalles de los resultados de los modelos y cómo funcionan no se han hecho público.

La OMI, una de las competiciones más prestigiosas del mundo para los jóvenes matemáticos, ha sido visto por los investigadores de IA como una prueba de fuego para el razonamiento matemático con el que los sistemas de IA tienden a luchar.

Después de la competencia del año pasado celebrada en Bath, Reino Unido, Google Deepmindannankoned que AI Systems que había desarrollado, llamado Alphaproof y Alphageometry, tuvieron juntos logró una actuación de nivel de medalla de plata, Pero sus entradas no fueron calificadas por los marcadores oficiales de la competencia.

Antes del concurso de este año, que se celebró en Queensland, Australia, compañías como Google, Huawei y Tiktok Bytedance del propietario, así como los investigadores académicos, se acercaron a los organizadores para preguntar si podrían tener el desempeño de sus modelos de IA, dice oficialmente, dice oficialmente, dice Gregor Dolinarel presidente de la OMI. La OMI acordó, con la condición de que las compañías esperaron para anunciar sus resultados hasta el 28 de julio, cuando se completaron las ceremonias de cierre de la OMI.

Operai también preguntó si podía participar en la competencia, pero después de que se informó sobre el esquema oficial, no respondió ni registró una entrada, dice Dolinar.

El 19 de julio, OpenAi anunciado Que una nueva IA que había desarrollado había alcanzado un puntaje de medalla de oro marcado por tres ex medallistas de IMO separados de la competencia oficial. La IA respondió correctamente cinco de seis preguntas en el mismo límite de tiempo de 4.5 horas que los concursantes, dijo OpenAI.

Dos días después, Google Deepmind también anunció que su sistema de IAllamado Gemini Deep Think, había logrado el oro con el mismo puntaje y límites de tiempo. Dolinar confirmó que este resultado fue dado por los marcadores oficiales de la OMI.

A diferencia de los sistemas de Alphaproof y Alphageometry de Google, que se elaboraron especialmente para la competencia y trabajaron con preguntas y respuestas escritas en un lenguaje de programación de computadoras llamado Lean, tanto Google como los modelos de OpenAi este año trabajaron completamente en lenguaje natural.

Trabajar en Lean significaba que la salida de la IA podría verificarse instantáneamente para determinar la corrección, pero es más difícil que no sean los no expertos. Thang Luong En Google, que trabajó en Gemini Deep Think, dice que el enfoque del lenguaje natural podría producir respuestas más comprensibles, además de ser aplicable a sistemas de IA generalmente útiles.

Luong dice que la capacidad de verificar soluciones en un modelo de lenguaje grande se ha hecho posible gracias al progreso con el aprendizaje de refuerzo, un método de capacitación en el que se enseña a una IA cómo se ve el éxito y se deja descubrir las reglas y cómo tener éxito únicamente a través de la prueba y el error. Este método fue clave para el éxito anterior de Google con su AIS de juego, como Alphazero.

El modelo de Google también considera múltiples soluciones a la vez, en un modo llamado pensamiento paralelo, además de recibir capacitación en un conjunto de datos de problemas matemáticos específicamente útiles para la OMI, dice Luong.

Operai ha publicado pocos detalles sobre su sistema, además de que también utiliza el aprendizaje de refuerzo y los “métodos de investigación experimentales”.

“El progreso es prometedor, pero no realizado de manera científica controlada, por lo que no podré evaluarlo en esta etapa”, dice Terence Tao en la Universidad de California, Los Ángeles. “Quizás una vez que las compañías involucraron publicaran algunos documentos con más datos y, con suerte, el acceso suficiente al modelo para que otros replicen los resultados, uno puede decir algo más definitivo, pero, por ahora, tenemos que confiar en gran medida en las propias empresas para los resultados reclamados”.

Geordie Williamson en la Universidad de Sydney en Australia está de acuerdo. “Creo que es notable que aquí es donde estamos. Es frustrante cuán poco detalles se proporcionan a los extraños con respecto a las internas”, dice Williamson.

Si bien los sistemas que trabajan en lenguaje natural podrían ser útiles para los no matemáticos, también podría presentar un problema si los modelos producen pruebas largas que son difíciles de verificar, dice, dice Joseph Myersuno de los organizadores de la OMI de este año. “Si AIS alguna vez produce soluciones a problemas significativos no resueltos que podrían ser correctos pero también podrían tener algunos errores sutiles pero fatales ocultos accidentalmente o potencialmente deliberadamente de una IA desalineada, tener esos AI también generar una prueba formal es clave para tener confianza en la corrección de una larga salida de AI antes de intentar leerla”.

Ambas compañías dicen que, en los próximos meses, ofrecerán estos sistemas para las pruebas a los matemáticos al principio, antes de liberarlos al público en general. Los modelos pronto podrían ayudar con problemas de investigación científicos más difíciles, dice Junehyuk Jung en Google, quien trabajó en Gemini Deep Think. “Habrá muchos, muchos problemas sin resolver al alcance”, dice.

Temas:

DeepMind y Operai reclaman oro en la Olimpiada Matemática Internacional

ByEquipo de 7 minutos

By Equipo de 7 minutos

Related Post

Misteriosa ‘mancha fría’ en el Atlántico sugiere que la AMOC se está debilitando

Los dientes antiguos sugieren que los europeos rara vez comían insectos y es posible que estuvieran menos adaptados para digerirlos

Podcast de esta semana en el espacio: Episodio 213 – En vivo desde ISDC con Gerry Griffin

You missed

Conozca Harness-1: un subagente de recuperación 20B capacitado con aprendizaje por refuerzo dentro de un arnés de búsqueda con estado en gpt-oss-20b

Misteriosa ‘mancha fría’ en el Atlántico sugiere que la AMOC se está debilitando

Serena Williams cambia el verano en Mallorca por volver al tenis en Queen’s

Los dientes antiguos sugieren que los europeos rara vez comían insectos y es posible que estuvieran menos adaptados para digerirlos