Bytedance presenta la semilla: un sistema de razonamiento formal avanzado para la prueba de teorema matemático automatizado

Los LLM han mostrado mejoras notables en el razonamiento matemático al extenderse a través del lenguaje natural, lo que resulta en ganancias de rendimiento en puntos de referencia como las matemáticas y el AIME. Sin embargo, el aprendizaje de refuerzo (RL) para capacitar a estos modelos encuentra un desafío: verificar la corrección de las pruebas de lenguaje natural es muy difícil, lo que requiere una cuidadosa verificación manual de cada paso de razonamiento. Esto limita la aplicación de RL para capacitar modelos de manejo del teorema matemático. Mientras que los idiomas formales como Lean ofrecen verificación automática de corrección, los actuales retrocesos formales de LLM enfrentan sus limitaciones. Los retrocesos a nivel de paso generan código de forma incremental, pero requieren andamios especiales y carecen de capacidades de razonamiento de alto nivel.

El equipo de semillas de Bytedance presenta la semilla, un modelo de razonamiento a prueba de todo el lema. Refina pruebas de iterativamente utilizando retroalimentación lean, lemas previamente establecidos y auto-sumarización. El-Provergido de semillas emplea tres estrategias especializadas de inferencia de tiempo de prueba que permiten métodos de razonamiento profundos y amplios para resolver problemas de concurso a nivel de IMO. Su innovación principal es adoptar una demostración al estilo de lema como su método central, colocando lemas en el centro del proceso de razonamiento en lugar de depender de los métodos tradicionales de generación paso a paso o a prueba de toda la prueba. Además, este artículo presenta la geometría de semillas, un motor de razonamiento de geometría complementaria que supera las limitaciones de Lean en el manejo del soporte geométrico.

Para la interacción entre la semilla y se utiliza la RL de tareas múltiples, múltiples, basada en VAPO. El conjunto de datos de capacitación combina conjuntos de datos de código abierto con problemas formales internos, utilizando un proponente para crear variantes más simples de tareas difíciles. Excluye problemas demasiado simples con tasas de prueba superiores al 25%. El backend de semillas de geometría apoya la generación de problemas a gran escala, identificando más de 230 millones de problemas únicos en siete días con una mejora de ocho veces en la eficiencia de búsqueda. Se capacita un modelo de política y valor separado, aunque las pruebas extensas muestran que los modelos de valor pueden reducir el rendimiento debido a los errores de estimación. Como resultado, la generación paso a paso con la búsqueda del haz se adopta en configuraciones distribuidas.

El retroceso de semillas logra resultados de última generación en múltiples puntos de referencia matemáticos. Para la OMI 2025, la semilla-retroceso resuelve completamente 5 de 6 problemas, con la geometría de semillas resolviendo instantáneamente el problema 2 y la producción de semillas que derivan pruebas para el problema restante utilizando varias configuraciones de inferencia. En problemas pasados de la OMI, demostró 121 de 155 tareas, logrando una tasa de éxito del 78.1% en todos los niveles de dificultad. El desglose del rendimiento muestra fuertes resultados en todas las categorías de problemas: resolver 47 de 55 problemas fáciles, 47 de 56 problemas medios y 27 de 44 problemas duros, con tasas de éxito específicas de sujeto que incluyen 72 de 85 en álgebra, 42 de 55 en la teoría de números y 7 de 14 en combinatoria.

En Minif2F, los investigadores alcanzan una tasa de prueba del 99.6% para los conjuntos de validación y prueba en entornos medios, resolviendo problemas difíciles como IMO 1990 P3. Los resultados de Putnambench muestran una mejora de 201 a 331 problemas resolvidos de 657 al actualizar de la configuración de inferencia ligera a media, mostrando un rendimiento significativo de un salto de rendimiento significativo sobre los sistemas de razonamiento matemático de pregrado previo. En Combibench, Seed-Proveres resuelve 30 de cada 100 problemas de combinatoria, superando los métodos existentes pero revelando desafíos continuos en el razonamiento combinatorial. Los investigadores alcanzan el 81.8% de éxito en MinICTX-V2, que muestran una fuerte generalización más allá de los problemas de competencia y superan el 44.3% de la línea de base de O4-Mini en Pass@8.

En conclusión, la semilla de byteos presenta la geometría de semillas y la producción de semillas, dos métodos de razonamiento formales que integran las capacidades de los LLM. La geometría de semillas proporciona verificación acelerada y mecanismos de búsqueda mejorados, mientras que la producción de semillas utiliza el refinamiento iterativo y las estrategias complejas de inferencia de tiempo de prueba. El logro de resolver 5 de 6 problemas en la OMI 2025 muestra la eficacia práctica de estos métodos para abordar las competiciones matemáticas de élite. La adopción de idiomas formales como Lean proporciona una verificación de prueba rápida que es más rentable que los expertos humanos y más confiable que los jueces basados en LLM. La investigación futura se centrará en combinar sistemas formales con LLM para abordar conjeturas abiertas.

Mira el Papel y Página de Github. No dude en ver nuestro Página de Github para tutoriales, códigos y cuadernos. Además, siéntete libre de seguirnos Gorjeo Y no olvides unirte a nuestro Subreddit de 100k+ ml y suscribirse a Nuestro boletín.

Sajjad Ansari es un pregrado de último año de IIT Kharagpur. Como entusiasta de la tecnología, profundiza en las aplicaciones prácticas de la IA con un enfoque en comprender el impacto de las tecnologías de IA y sus implicaciones del mundo real. Su objetivo es articular conceptos complejos de IA de manera clara y accesible.

Bytedance presenta la semilla: un sistema de razonamiento formal avanzado para la prueba de teorema matemático automatizado

ByEquipo de 7 minutos

By Equipo de 7 minutos

Related Post

Creación de optimización de avisos reflexivos con GEPA: avisos de múltiples componentes, comentarios estructurados y validación retenida

Tutorial de NVIDIA Garak: cree un flujo de trabajo de equipo rojo LLM defensivo completo con sondas y detectores personalizados

Las 21 mejores herramientas de inteligencia artificial con y sin código en 2026

You missed

Las 4 señales clave de que debes tirar los alimentos viejos, según la ciencia: ScienceAlert

JUICIO DAVID SÁNCHEZ BADAJOZ | El juicio por el presunto enchufe de David Sánchez en la Diputación de Badajoz encara su recta final

Talleres para dueños de perros – Noticias Costa Tropical Gazette

Lo que bloquea los escáneres de terahercios también podría convertirlos en médicos útiles