¿Cómo puede un sistema de IA demostrar problemas matemáticos complejos de nivel olímpico en un lenguaje natural claro y al mismo tiempo comprobar que su propio razonamiento es realmente correcto? DeepSeek AI ha lanzado DeepSeekMath-V2, un modelo de lenguaje grande y de peso abierto que está optimizado para la demostración de teoremas en lenguaje natural con autoverificación. El modelo está construido sobre DeepSeek-V3.2-Exp-Base, se ejecuta como una combinación de parámetros de expertos de 685B y está disponible en Hugging Face bajo una licencia Apache 2.0.
En las evaluaciones, DeepSeekMath-V2 alcanza puntuaciones de nivel oro en IMO 2025 y CMO 2024, y logra 118 de 120 puntos en Putnam 2024 cuando se utiliza con cálculo de tiempo de prueba escalado.
¿Por qué las recompensas por la respuesta final no son suficientes?
Los modelos de razonamiento matemático más recientes utilizan el aprendizaje por refuerzo que recompensa solo la respuesta final en puntos de referencia como AIME y HMMT. Este enfoque empujó a los modelos desde líneas de base débiles hasta casi la saturación en concursos de respuestas cortas en aproximadamente un año. (Cara abrazada)
Sin embargo, el equipo de investigación de DeepSeek señala dos problemas estructurales:
Una respuesta numérica correcta no garantiza un razonamiento correcto. El modelo puede alcanzar el número correcto mediante errores algebraicos que se cancelan. Muchas tareas, como las pruebas olímpicas y la demostración de teoremas, requieren un argumento completo en lenguaje natural. Estas tareas no tienen una única respuesta numérica final, por lo que no se aplican las recompensas basadas en respuestas estándar.
Por lo tanto, DeepSeekMath-V2 optimiza la calidad de la prueba en lugar de la pura precisión de la respuesta. El sistema evalúa si una prueba es completa y lógicamente sólida, y utiliza esa evaluación como principal señal de aprendizaje.
Entrenamiento de un Verificador antes del Generador
El diseño central es el verificador primero. El equipo de investigación de DeepSeek capacita a un verificador basado en LLM que puede leer un problema y una prueba candidata y luego generar un análisis de lenguaje natural y una puntuación de calidad discreta en el conjunto {0, 0,5, 1}.
Los datos iniciales del aprendizaje por refuerzo provienen de los concursos Art of Problem Solving. El equipo de investigación rastreó 17.503 problemas de estilo de pruebas de olimpíadas, pruebas de selección de equipos y problemas posteriores a 2010 que requieren pruebas explícitas. Estos problemas forman el conjunto básico para el arranque en frío RL. Las pruebas candidatas provienen de un modelo de razonamiento DeepSeek-V3.2 al que se le pide que refine de forma iterativa sus propias soluciones, lo que aumenta los detalles pero también crea muchas pruebas imperfectas. Los expertos humanos etiquetan estas pruebas utilizando la rúbrica 0, 0,5, 1, según el rigor y la integridad.
El verificador está capacitado con optimización de políticas relativas al grupo (GRPO). La recompensa tiene dos componentes:
Una recompensa de formato, que verifica que el resultado del verificador siga una plantilla fija, que incluye una sección de análisis y una puntuación final en un cuadro. Una recompensa de puntuación, que penaliza la diferencia absoluta entre la puntuación prevista y la puntuación del experto.
Esta etapa produce un verificador que puede calificar las pruebas de estilo olímpico de manera consistente.
Metaverificación para controlar las críticas alucinadas
Un verificador aún puede jugar con la recompensa. Puede generar la puntuación final correcta mientras inventa problemas falsos en el análisis. Esto satisfaría el objetivo numérico pero haría que las explicaciones no fueran confiables.
Para abordar esto, el equipo de investigación introduce un metaverificador. El metaverificador lee el problema original, la prueba y el análisis del verificador, y luego evalúa si el análisis es fiel. Puntúa aspectos como la reformulación de pasos, la identificación de defectos reales y la coherencia entre la narrativa y la puntuación final.
El metaverificador también está entrenado con GRPO, con su propio formato y recompensas de puntuación. Su resultado, una puntuación de metacalidad, se utiliza luego como término de recompensa adicional para el verificador base. Los análisis que muestran problemas de alucinaciones obtienen metapuntuaciones bajas, incluso si la puntuación de la prueba final es correcta. En los experimentos, esto aumenta la calidad promedio de los análisis metaevaluados de aproximadamente 0,85 a 0,96 en una división de validación, al tiempo que mantiene estable la precisión de la puntuación de la prueba.
Generador de pruebas de autoverificación y refinamiento secuencial
Una vez que el verificador es sólido, el equipo de investigación de DeepSeek entrena al generador de pruebas. El generador toma un problema y genera una solución y un autoanálisis que sigue la misma rúbrica que el verificador.
La recompensa por el generador combina tres señales:
La puntuación del verificador en la prueba generada. La concordancia entre la puntuación autoinformada y la puntuación del verificador. La puntuación de metaverificación del autoanálisis.
Formalmente, la recompensa principal utiliza pesos α = 0,76 para la puntuación de prueba y β = 0,24 para el componente de autoanálisis, multiplicados por un término de formato que impone la estructura de salida. Esto empuja al generador a escribir pruebas que el verificador acepta y a ser honesto sobre los problemas restantes. Si afirma que una prueba defectuosa es perfecta, pierde recompensa debido al desacuerdo y las metapuntuaciones bajas.
DeepSeek también explota el límite de contexto de token de 128K del modelo base. Para problemas difíciles, el generador a menudo no puede reparar todos los problemas en una sola pasada, porque la prueba refinada y el análisis excederían el contexto. En ese caso, el sistema ejecuta un refinamiento secuencial. Genera una prueba y un autoanálisis, los retroalimenta como contexto y le pide al modelo que produzca una nueva prueba que solucione los problemas detectados previamente. Este bucle puede repetirse varias veces, sujeto al presupuesto del contexto.
Verificación de escala y etiquetado automático
A medida que el generador mejora, produce pruebas más duras, que son costosas de etiquetar a mano. Para mantener actualizados los datos de capacitación, el equipo de investigación introduce un proceso de etiquetado automático basado en verificación escalada.
Para cada prueba candidata, el sistema toma muestras de múltiples análisis de verificadores independientes y luego evalúa cada análisis utilizando el metaverificador. Si varios análisis de alta calidad convergen en los mismos problemas graves, la prueba se etiqueta como incorrecta. Si ningún problema válido sobrevive a la metaverificación, la prueba se etiqueta como correcta. En las iteraciones finales de capacitación, este canal reemplaza las etiquetas humanas, con controles aleatorios que confirman un buen acuerdo con los expertos.
Resultados de la competencia y de referencia
El equipo de investigación evaluó DeepSeekMath-V2 en varios frentes:
En un conjunto interno de 91 problemas de nivel CNML que cubren álgebra, geometría, teoría de números, combinatoria y desigualdades, muestra que DeepSeekMath-V2 logra la puntuación media de prueba más alta entre Gemini 2.5 Pro, GPT 5 Thinking High y DeepSeekMath-V2 en cada categoría, según lo medido por su verificador.
En IMO Shortlist 2024, el refinamiento secuencial con autoverificación mejora tanto la aprobación en 1 como la mejor de 32 métricas de calidad a medida que aumenta el número máximo de iteraciones de refinamiento.
En IMO ProofBench, la evaluación de expertos de la figura anterior muestra que DeepSeekMath-V2 supera a DeepMind DeepThink IMO Gold en el subconjunto Básico y sigue siendo competitivo en el subconjunto Avanzado, mientras supera claramente a otros modelos grandes.
Para competiciones completas, informa:
OMI 2025: 5 de 6 problemas resueltos, nivel medalla de oro. CMO 2024: 4 problemas completamente resueltos más crédito parcial en 1 más, nivel medalla de oro. Putnam 2024: 11 de 12 problemas resueltos completamente y el problema restante con errores menores, para 118 de 120 puntos, por encima de la mejor puntuación humana de 90.
Conclusiones clave
DeepSeekMath V2 es un modelo de parámetros 685B construido sobre DeepSeek V3.2 Exp Base, diseñado para la demostración de teoremas en lenguaje natural con autoverificación y lanzado como pesos abiertos bajo la licencia Apache 2.0. La principal innovación es un proceso de capacitación para el primer verificador con un verificador y un metaverificador capacitados por GRPO que califican las pruebas según el rigor, no solo las respuestas finales, lo que aborda directamente la brecha entre las respuestas correctas y el razonamiento correcto. Luego se entrena un generador de pruebas contra este verificador y metaverificador, utilizando recompensas que combinan calidad de las pruebas, acuerdo con la autoevaluación y fidelidad del análisis, además de un refinamiento secuencial en un contexto de 128K para reparar pruebas de forma iterativa. Con cálculo de tiempo de prueba escalado y grandes presupuestos de verificación, DeepSeekMath V2 alcanza el nivel de rendimiento oro en IMO 2025 y CMO 2024 y obtiene una puntuación de 118 de 120 en Putnam 2024, superando la mejor puntuación humana de ese año.
Notas editoriales
DeepSeekMath-V2 es un paso importante hacia el razonamiento matemático autoverificable, porque aborda directamente la brecha entre las respuestas finales correctas y el razonamiento correcto, utilizando un verificador, un metaverificador y un generador de pruebas entrenado con GRPO en pruebas de estilo olímpico e implementado a escala 685B para alcanzar el nivel de rendimiento oro en IMO 2025, CMO 2024 y una puntuación casi perfecta de 118 de 120 en Putnam 2024. En general, esta versión muestra que el razonamiento matemático autoverificable con pesos abiertos ahora es prácticamente alcanzable para problemas de nivel de competencia.
Consulte el documento completo, los pesos de los modelos en HF y Repo. No dude en consultar nuestra página de GitHub para tutoriales, códigos y cuadernos. Además, no dude en seguirnos en Twitter y no olvide unirse a nuestro SubReddit de más de 100.000 ML y suscribirse a nuestro boletín. ¡Esperar! estas en telegrama? Ahora también puedes unirte a nosotros en Telegram.
Asif Razzaq es el director ejecutivo de Marktechpost Media Inc.. Como empresario e ingeniero visionario, Asif está comprometido a aprovechar el potencial de la inteligencia artificial para el bien social. Su esfuerzo más reciente es el lanzamiento de una plataforma de medios de inteligencia artificial, Marktechpost, que se destaca por su cobertura en profundidad del aprendizaje automático y las noticias sobre aprendizaje profundo que es técnicamente sólida y fácilmente comprensible para una amplia audiencia. La plataforma cuenta con más de 2 millones de visitas mensuales, lo que ilustra su popularidad entre el público.
🙌 Siga MARKTECHPOST: agréguenos como fuente preferida en Google.