DeepSeek-AI Open-Sources DeepSeek-Prover-V1.5: un modelo de lenguaje con 7 mil millones de parámetros que supera a todos los modelos de código abierto en la demostración formal de teoremas en Lean 4

Los modelos de lenguaje grandes (LLM) han logrado avances significativos en el razonamiento matemático y la demostración de teoremas, pero enfrentan desafíos considerables en la demostración formal de teoremas utilizando sistemas como Lean e Isabelle. Estos sistemas exigen derivaciones rigurosas que se adhieran a especificaciones formales estrictas, lo que plantea dificultades incluso para modelos avanzados como GPT-4. El desafío principal radica en la necesidad del modelo de comprender simultáneamente la sintaxis y la semántica de los sistemas formales y, al mismo tiempo, alinear el razonamiento matemático abstracto con representaciones formales precisas. Esta tarea compleja requiere una comprensión profunda de las complejidades de la codificación y los conceptos matemáticos, lo que crea un obstáculo significativo para los sistemas de IA actuales a la hora de producir pruebas formales complejas.

Los investigadores de DeepSeek-AI presentaron Probador DeepSeek V1.5un enfoque unificado que combina las fortalezas de las técnicas de generación de pruebas completas y de pasos de prueba a través de un mecanismo robusto de truncamiento y reanudación. Este método comienza con la generación de pruebas completas, donde el modelo de lenguaje produce un código de prueba completo basado en el enunciado del teorema. Luego, el probador Lean verifica este código. Si se detecta un error, el código se trunca en el primer mensaje de error y la parte generada correctamente sirve como un aviso para el siguiente segmento de prueba. El último estado del probador Lean 4 se adjunta como un comentario al aviso para mejorar la precisión. El mecanismo de truncamiento y reanudación está integrado en la búsqueda de árboles de Montecarlo (MCTS), lo que permite puntos de truncamiento flexibles determinados por la política de búsqueda de árboles. Además, se propone un algoritmo de exploración sin recompensas para abordar el problema de escasez de recompensas en la búsqueda de pruebas, asignando una motivación intrínseca al agente de búsqueda de árboles para una exploración extensa del espacio de estados tácticos.

Este estudio presenta las siguientes contribuciones:

• Preentrenamiento: modelo base mejorado con capacitación adicional en matemáticas y datos de código, centrándose en lenguajes formales como Lean, Isabelle y Metamath.

• Ajuste fino supervisado: conjunto de datos de finalización de código Lean 4 mejorado a través de dos técnicas de aumento de datos:

1. Se utilizó DeepSeek-Coder V2 236B para agregar comentarios de cadena de pensamiento en lenguaje natural.

2. Se insertó información del estado de la táctica intermedia dentro del código de prueba Lean 4.

• Aprendizaje por refuerzo: se empleó el algoritmo GRPO para el aprendizaje por refuerzo a partir de la retroalimentación del asistente de prueba (RLPAF), utilizando los resultados de la verificación del probador Lean como recompensas.

• Búsqueda de árboles de Montecarlo: método avanzado de búsqueda de árboles con:

1. Mecanismo de truncar y reanudar como abstracción de estado-acción.

2. Algoritmo RMaxTS, que utiliza la estrategia RMax para la exploración en la búsqueda de pruebas de recompensa dispersa.

3. Se asignaron recompensas intrínsecas para fomentar diversos caminos de planificación y una amplia exploración del espacio de pruebas.

DeepSeek-Prover-V1.5 demuestra avances significativos en la demostración formal de teoremas en múltiples puntos de referencia. En el conjunto de datos de prueba miniF2F, DeepSeek-Prover-V1.5-RL logró una tasa de aprobación del 60,2 % en una generación de prueba completa de una sola pasada, lo que marca una mejora de 10,2 puntos porcentuales con respecto a su predecesor. Con un presupuesto de muestreo limitado de 128 intentos, demostró el 51,6 % de los problemas, superando a otros métodos de generación de prueba completa y coincidiendo con los métodos de búsqueda de árboles líderes. Cuando se mejoró con la búsqueda de árboles RMaxTS, DeepSeek-Prover-V1.5-RL logró una tasa de aprobación de vanguardia del 62,7 %. Además, superó el mejor resultado anterior con significativamente menos muestreos. En el conjunto de datos ProofNet, DeepSeek-Prover-V1.5-RL logró tasas de aprobación del 22,6 % y el 25,3 % en configuraciones de una sola pasada y mejoradas con RMaxTS respectivamente, superando a los métodos existentes. Estos resultados demuestran el rendimiento superior de DeepSeek-Prover-V1.5 en diferentes tareas y metodologías de demostración de teoremas.

Probador DeepSeek V1.5un modelo de lenguaje de 7 mil millones de parámetros, establece nuevos puntos de referencia en la demostración formal de teoremas utilizando Lean 4. Construido sobre DeepSeek-Prover-V1.5-Base, se somete a un entrenamiento previo especializado, un ajuste fino supervisado integral y un aprendizaje de refuerzo a través de GRPO. El modelo incorpora RMaxTS, una innovadora variante de búsqueda de árbol de Montecarlo, para mejorar la resolución de problemas a través de una exploración exhaustiva. Este marco establece una línea de trabajo similar a AlphaZero para la demostración formal de teoremas, utilizando iteración experta y datos sintéticos. Si bien el enfoque actual está en la exploración, los desarrollos futuros pueden incluir un modelo crítico para evaluar pruebas incompletas, abordando el aspecto de explotación del aprendizaje de refuerzo en la demostración de teoremas.


Echa un vistazo a la Papel y GitHub. Todo el crédito por esta investigación corresponde a los investigadores de este proyecto. Además, no olvides seguirnos en Gorjeo y únete a nuestro Canal de Telegram y LinkedIn Gr¡Arriba!. Si te gusta nuestro trabajo, te encantará nuestro hoja informativa..

No olvides unirte a nuestro Subreddit de más de 48 000 millones de usuarios

Encuentra lo próximo Seminarios web sobre IA aquí


Asjad es consultor en prácticas en Marktechpost. Está cursando la licenciatura en ingeniería mecánica en el Instituto Indio de Tecnología de Kharagpur. Asjad es un entusiasta del aprendizaje automático y del aprendizaje profundo que siempre está investigando las aplicaciones del aprendizaje automático en el ámbito de la atención médica.