La automatización del razonamiento matemático ha sido un objetivo de la inteligencia artificial desde hace mucho tiempo, y los marcos formales como Lean 4, Isabelle y Coq desempeñan un papel importante. Estos marcos permiten a los usuarios escribir pruebas de teoremas matemáticos verificables por máquina, lo que proporciona un entorno estructurado para probar problemas complejos. El desarrollo de probadores de teoremas neuronales, que apuntan a automatizar este proceso, requiere de parámetros de referencia rigurosos para evaluar su eficacia e impulsar más investigaciones.
Un problema crítico en la demostración de teoremas impulsada por IA es la falta de puntos de referencia integrales que desafíen a estos sistemas con problemas matemáticos avanzados. Los puntos de referencia existentes, como MINI F2F y FIMO, se centran principalmente en matemáticas de nivel secundario y deben probar suficientemente las capacidades de los demostradores de teoremas neuronales en problemas más complejos de nivel universitario. Esta brecha requiere la creación de un punto de referencia más sólido que abarque una gama más amplia de desafíos matemáticos.
Investigadores de UT Austin han presentado Putnambench (Putnambench)un nuevo punto de referencia diseñado para evaluar a los probadores de teoremas neuronales utilizando problemas de la Competencia matemática William Lowell Putnam. Esta competencia es reconocida en Norteamérica por sus desafiantes problemas de matemáticas de nivel universitario, lo que la convierte en una fuente ideal para un punto de referencia riguroso. PUTNAMBENCH incluye 1697 formalizaciones de 640 problemas, cada uno disponible en Lean 4 e Isabelle y un subconjunto significativo en Coq. Este enfoque multilingüe garantiza una evaluación integral en diferentes entornos de prueba de teoremas.
La metodología de PUTNAMBENCH implica la construcción manual de formalizaciones de los problemas de competencia de Putnam, asegurándose de que cada problema esté cuidadosamente depurado y disponible en múltiples lenguajes de prueba formal. Estas formalizaciones cubren varios temas que se enseñan en los cursos de matemáticas de pregrado, como álgebra, análisis, teoría de números y combinatoria. Los problemas están diseñados para probar habilidades significativas de resolución de problemas y competencia en varios conceptos matemáticos, lo que convierte a PUTNAMBENCH en un punto de referencia desafiante para los demostradores de teoremas neuronales.
La evaluación de PUTNAMBENCH utilizó varios probadores de teoremas neuronales y simbólicos, incluidos Draft-Sketch-Prove, COPRA, GPT-4, Sledgehammer y Coqhammer. Estos métodos se probaron en las 1697 formalizaciones, y cada técnica intentó resolver los problemas utilizando sus enfoques únicos. Los resultados mostraron que los métodos actuales solo podían resolver un puñado de los problemas de PUTNAMBENCH. Por ejemplo, GPT-4 resolvió solo uno de los 640 problemas en Lean 4 y Coq, mientras que Sledgehammer resolvió tres de los 640 problemas en Isabelle.
Uno de los desafíos clave que destacan las evaluaciones de PUTNAMBENCH es la dificultad de sintetizar nuevos lemas y orquestarlos en demostraciones complejas. Si bien los probadores de teoremas actuales pueden unir de manera efectiva los pasos de demostración estándar bien representados en su corpus de entrenamiento, a menudo necesitan ayuda para crear estrategias de demostración nuevas e innovadoras. Esta limitación subraya la necesidad de modelos neuronales más avanzados que puedan aprovechar el conocimiento y el razonamiento matemáticos profundos.
La naturaleza multilingüe de PUTNAMBENCH lo distingue de los benchmarks anteriores. Al incluir problemas de Lean 4, Isabelle y Coq, PUTNAMBENCH permite una evaluación más integral de los métodos de demostración de teoremas. Este enfoque garantiza que el benchmark pueda probar la solidez de los probadores de teoremas en diferentes entornos de prueba formal, lo que proporciona un panorama completo de sus capacidades y limitaciones.
En conclusión, PUTNAMBENCH, al proporcionar un conjunto diverso de 1697 formalizaciones de problemas de competencia de Putnam en múltiples lenguajes de prueba formales, aborda las limitaciones de los puntos de referencia existentes y establece un nuevo estándar de rigor y exhaustividad. Los resultados de las evaluaciones actuales indican que, si bien se han logrado avances, todavía queda un largo camino por recorrer en el desarrollo de demostradores de teoremas neuronales capaces de resolver problemas matemáticos complejos. PUTNAMBENCH, sin duda, será crucial para impulsar la investigación y la innovación futuras.
Revisar la Papel. Todo el crédito por esta investigación corresponde a los investigadores de este proyecto. Además, no olvides seguirnos en Gorjeo.
Únete a nuestro Canal de Telegram y LinkedIn Gr¡Arriba!.
Si te gusta nuestro trabajo, te encantará nuestro Boletin informativo..
No olvides unirte a nuestro Subreddit de más de 46 000 millones de usuarios
Asif Razzaq es el director ejecutivo de Marktechpost Media Inc. Como ingeniero y emprendedor visionario, Asif está comprometido con aprovechar el potencial de la inteligencia artificial para el bien social. Su iniciativa más reciente es el lanzamiento de una plataforma de medios de inteligencia artificial, Marktechpost, que se destaca por su cobertura en profundidad de noticias sobre aprendizaje automático y aprendizaje profundo que es técnicamente sólida y fácilmente comprensible para una amplia audiencia. La plataforma cuenta con más de 2 millones de visitas mensuales, lo que ilustra su popularidad entre el público.