Deepseek-AI lanzó Deepseek-Prover-V2: un modelo de lenguaje grande de código abierto diseñado para el teorema formal, demostrando a través de la descomposición subggoal y el aprendizaje de refuerzo

El razonamiento matemático formal se ha convertido en un subcampo especializado de inteligencia artificial que requiere una consistencia lógica estricta. A diferencia de la resolución informal de problemas, que permite la intuición y la heurística suelta definida, el teorema formal se basa en cada paso que se describe completamente, preciso y verificable por los sistemas computacionales. Los asistentes de prueba, como Lean, Coq e Isabelle, sirven como marcos estructurales dentro de los cuales se construyen estas pruebas formales. Su operación exige solidez lógica sin espacio para omisiones, aproximaciones o supuestos no establecidos. Esto hace que el desafío sea particularmente exigente para los sistemas de IA, especialmente modelos de idiomas grandes, que se destacan en la producción de respuestas coherentes del lenguaje natural, pero generalmente carecen del rigor para producir pruebas formales verificables. Sin embargo, el deseo de combinar estas fortalezas, la fluidez de la IA en el razonamiento informal y la estructura de la verificación formal, ha llevado a nuevas innovaciones en la interfaz del modelado de idiomas y la automatización de lógica formal.

Un problema importante surge de la incapacidad de los modelos de idiomas actuales para cerrar la división conceptual entre el razonamiento informal y formal. Los modelos lingüísticos generalmente se destacan en la generación de explicaciones humanas y resolver problemas matemáticos escritos en lenguaje natural. Sin embargo, este razonamiento es inherentemente informal y a menudo carece de la precisión estructural requerida por los sistemas lógicos formales. Mientras que los humanos pueden saltar intuitivamente de un paso deductivo a otro, los asistentes de prueba requieren una secuencia de pasos completamente especificada, libre de ambigüedad. Por lo tanto, el desafío es guiar a los modelos AI para producir salidas formales lógicamente coherentes de sus procesos de razonamiento interno informales e intuitivos. Este problema se vuelve cada vez más complejo cuando se maneja teoremas avanzados de dominios como la teoría de números o la geometría, donde la precisión es crucial.

Los esfuerzos recientes han intentado abordar este problema guiando modelos primero para generar bocetos de prueba de lenguaje natural, que luego se traducen manual o semiautomáticamente en pasos de prueba formales. Una estrategia conocida incluye descomponer un teorema complejo en subconsportes más pequeños. Cada subggoal representa un lema que se puede abordar de forma independiente y luego combinada para formar una prueba completa. Los marcos como “borrador, boceto y prueba” han aplicado esta idea, utilizando modelos de idiomas para generar contornos de prueba que luego se traducen en un lenguaje formal. Otro método emplea el aprendizaje de refuerzo jerárquico, descomponiendo problemas matemáticos complejos en capas más simples. Sin embargo, estos modelos a menudo luchan por producir resultados totalmente verificables en entornos Lean o CoQ. Además, los datos de capacitación para estos modelos suelen ser limitados, y los intentos de prueba frecuentemente no producen resultados exitosos que proporcionen señales de aprendizaje útiles.

Un equipo de investigadores de Deepseek-AI ha introducido un nuevo modelo, Deepseek-prover-v2diseñado para generar pruebas matemáticas formales aprovechando la descomposición subggoal y el aprendizaje de refuerzo. El núcleo de su enfoque utiliza Deepseek-V3 para desglosar un teorema complejo en subconsportes manejables, cada una de las cuales se traduce en una declaración de “tener” en Lean 4 con un marcador de posición que indica que la prueba está incompleta. Estas subggoal se pasan a un modelo Prover del tamaño de 7B que completa cada paso de prueba. Una vez que se resuelven todos los pasos, se sintetizan en una prueba magra completa y se combinan con el razonamiento del lenguaje natural original generado por Deepseek-V3. Esto forma un rico conjunto de datos de arranque en frío para el aprendizaje de refuerzo. Es importante destacar que el entrenamiento del modelo está completamente arrancado a partir de datos sintéticos, sin pasos de prueba anotados por humanos utilizados.

La tubería de arranque en frío comienza provocando que Deepseek-V3 cree bocetos de prueba en lenguaje natural. Estos bocetos se transforman en declaraciones formales del teorema con partes no resueltas. Una innovación clave radica en resolver recursivamente cada subggoal utilizando el Prover 7B, reduciendo los costos de cálculo mientras se mantiene el rigor formal. Los investigadores construyeron un marco de aprendizaje curricular que aumentó la complejidad de las tareas de capacitación a lo largo del tiempo. También implementaron dos tipos de teoremas de subggoal, uno que incorpora subconocentes anteriores como premisas, y uno los trata de forma independiente. Esta estructura dual se integró en la etapa de iteración experta del modelo para entrenarla en conjuntos de problemas progresivamente más desafiantes. La capacidad del modelo se reforzó luego a través de un sistema de recompensas basado en la consistencia durante la capacitación, asegurando que todos los lemas descompuestos se incorporen correctamente a la prueba formal final.

En el punto de referencia de prueba Minif2F, el modelo logró una tasa de aprobación del 88.9% con alto muestreo (pase@8192), en comparación con 82.0% por Kimina-Provers y 64.7% por Geodel-Prover. También resolvió 49 de 658 problemas de Putnambench, una plataforma con tareas matemáticas desafiantes. En el recién introducido Proverbench DataSet, que comprende 325 problemas formalizados, el modelo abordó 6 de cada 15 problemas del AIME (American Invitational Mathematics Examination) para los años 2024 y 2025. Estos puntos de referencia destacan la capacidad de generalización del modelo en múltiples tareas formales de razonamiento. Incluso cuando se compara con Deepseek-V3, que emplea un razonamiento en lenguaje natural, el nuevo modelo demuestra un rendimiento competitivo, resolviendo un número comparable de problemas de AIME al tiempo que garantiza la verificabilidad formal.

Varias conclusiones clave de la investigación sobre Deepseek-Prover-V2:

  • Deepseek-PROVER-V2 logró una tasa de aprobación del 88.9% en la prueba Minif2F (pase@8192), la más alta reportada entre los modelos de razonamiento formales hasta el momento.
  • El modelo resolvió con éxito 49 de 658 problemas del conjunto de datos Putnambench, que contiene desafíos matemáticos avanzados.
  • Abordó 6 de 15 problemas de las recientes competiciones de AIME 2024–2025, mostrando aplicabilidad del mundo real.
  • Se ha introducido un nuevo punto de referencia, Proverbench, que comprende 325 problemas formales, para evaluar modelos de razonamiento formales.
  • La tubería unifica el boceto a prueba de lenguaje natural y la construcción de pruebas formales al combinar Deepseek-V3 y un modelo 7B Prover.
  • Dos tipos de descomposiciones subggoal, una con y otra sin premisas dependientes, se usaron para entrenar el modelo de manera estructurada y guiada por el plan de estudios.
  • El aprendizaje de refuerzo con una recompensa basada en la consistencia mejoró significativamente la precisión de la prueba al hacer cumplir la alineación estructural entre el boceto y la solución.
  • Toda la estrategia de entrenamiento se basa en datos sintéticos de arranque en frío, eliminando la dependencia de pruebas etiquetadas manualmente.

Mira el modelo en Papel y Página de Github. Además, no olvides seguirnos Gorjeo y únete a nuestro Canal de telegrama y LinkedIn GRsalpicar. No olvides unirte a nuestro 90k+ ml de subreddit.

🔥 [Register Now] Conferencia virtual de Minicon sobre AI agente: registro gratuito + Certificado de asistencia + Evento corto de 4 horas (21 de mayo, 9 am- 1 pm PST) + Hands on Workshop


Asif Razzaq es el CEO de MarktechPost Media Inc .. Como empresario e ingeniero visionario, ASIF se compromete a aprovechar el potencial de la inteligencia artificial para el bien social. Su esfuerzo más reciente es el lanzamiento de una plataforma de medios de inteligencia artificial, MarktechPost, que se destaca por su cobertura profunda de noticias de aprendizaje automático y de aprendizaje profundo que es técnicamente sólido y fácilmente comprensible por una audiencia amplia. La plataforma cuenta con más de 2 millones de vistas mensuales, ilustrando su popularidad entre el público.