DeepSeek-AI lanza DeepSeek-R1-Zero y DeepSeek-R1: modelos de razonamiento de primera generación que incentivan la capacidad de razonamiento en LLM a través del aprendizaje por refuerzo

Los modelos de lenguaje grande (LLM) han logrado avances significativos en el procesamiento del lenguaje natural, sobresaliendo en tareas como comprensión, generación y razonamiento. Sin embargo, persisten desafíos. Lograr un razonamiento sólido a menudo requiere amplios ajustes supervisados, lo que limita la escalabilidad y la generalización. Además, persisten problemas como la mala legibilidad y el equilibrio de la eficiencia computacional con la complejidad del razonamiento, lo que lleva a los investigadores a explorar nuevos enfoques.

DeepSeek-R1: un nuevo enfoque para el razonamiento LLM

DeepSeek-AIEl trabajo reciente presenta DeepSeek-R1un modelo diseñado para mejorar las capacidades de razonamiento mediante el aprendizaje por refuerzo (RL). Este esfuerzo dio como resultado dos modelos:

  • DeepSeek-R1-Zeroque se entrena únicamente con RL y demuestra comportamientos de razonamiento emergentes, como el razonamiento de cadena de pensamiento (CoT) larga.
  • DeepSeek-R1que se basa en su predecesor al incorporar un proceso de capacitación de varias etapas, que aborda desafíos como la legibilidad y la combinación de idiomas mientras mantiene un alto rendimiento de razonamiento.

Estos modelos tienen como objetivo superar las limitaciones existentes, combinando técnicas innovadoras de RL con procesos de capacitación estructurados para lograr escalabilidad y usabilidad.

Innovaciones técnicas y beneficios

1. Aprendizaje por refuerzo en tareas de razonamiento: DeepSeek-R1-Zero emplea RL sin depender de datos supervisados. Al utilizar la optimización de políticas relativas al grupo (GRPO), optimiza el razonamiento mediante la evaluación de múltiples resultados, lo que mejora significativamente el rendimiento de las pruebas comparativas. Por ejemplo, su puntuación AIME 2024 pass@1 aumentó del 15,6 % al 71,0 % durante el entrenamiento.

2. Entrenamiento en varias etapas en DeepSeek-R1: DeepSeek-R1 incorpora datos de arranque en frío (miles de ejemplos CoT seleccionados) para ajustar su modelo base antes de someterse a RL centrado en el razonamiento. Este proceso garantiza que los resultados sean coherentes y fáciles de usar al incorporar recompensas por la coherencia del lenguaje.

3. Destilación para modelos más pequeños: Para abordar las limitaciones computacionales, DeepSeek-AI destiló seis modelos más pequeños (de 1,5 mil millones a 70 mil millones de parámetros) de DeepSeek-R1 utilizando arquitecturas Qwen y Llama. Estos modelos conservan sólidas capacidades de razonamiento, y el modelo destilado 14B logró una puntuación de aprobado@1 del 69,7 % en AIME 2024, superando a algunos modelos más grandes.

Resultados: Información sobre el rendimiento

El rendimiento de DeepSeek-R1 está respaldado por resultados de pruebas comparativas:

  • Puntos de referencia de razonamiento:
    • AIME 2024: 79,8% pass@1, superando el o1-mini de OpenAI.
    • MATH-500: 97,3% aprobado@1, comparable a OpenAI-o1-1217.
    • GPQA Diamante: 71,5 % aprobado@1, sobresaliendo en razonamiento basado en hechos.
  • Tareas de codificación y STEM:
    • Calificación Elo de Codeforces: 2029, superando al 96,3% de los participantes humanos.
    • SWE-Bench Verified: tasa de resolución del 49,2%, competitiva con otros modelos líderes.
  • Capacidades generales:
    • Se demostró una fuerte generalización en los puntos de referencia ArenaHard y AlpacaEval 2.0, logrando tasas de victoria del 92,3% y 87,6%, respectivamente.

Aspectos destacados del modelo destilado: Los modelos más pequeños como DeepSeek-R1-Distill-Qwen-32B muestran un rendimiento sólido, con una puntuación pass@1 del 72,6 % en AIME 2024, lo que demuestra una escalabilidad y practicidad efectivas.

Conclusión: refinar el razonamiento en IA

DeepSeek-R1 y DeepSeek-R1-Zero de DeepSeek-AI representan avances significativos en las capacidades de razonamiento para los LLM. Al aprovechar RL, datos de arranque en frío y técnicas de destilación, estos modelos abordan limitaciones críticas al tiempo que promueven la accesibilidad a través de la disponibilidad de código abierto bajo la licencia MIT. La API (‘model=deepseek-reasoner’) mejora aún más la usabilidad para desarrolladores e investigadores.

De cara al futuro, DeepSeek-AI planea perfeccionar el soporte multilingüe, mejorar las capacidades de ingeniería de software y mejorar la sensibilidad rápida. Estos esfuerzos tienen como objetivo establecer aún más DeepSeek-R1 como una solución sólida para aplicaciones de IA centradas en el razonamiento. Al integrar paradigmas de capacitación bien pensados, DeepSeek-R1 ilustra cómo la IA puede avanzar para abordar desafíos cada vez más complejos.


Verificar el Papel, Búsqueda profunda R1 y DeepSeek R1 cero. Todo el crédito por esta investigación va a los investigadores de este proyecto. Además, no olvides seguirnos en Gorjeo y únete a nuestro Canal de telegramas y LinkedIn Grarriba. No olvides unirte a nuestro SubReddit de más de 65.000 ml.

🚨 [Recommended Read] Nebius AI Studio se expande con modelos de visión, nuevos modelos de lenguaje, incorporaciones y LoRA (Promovido)


Asif Razzaq es el director ejecutivo de Marktechpost Media Inc.. Como empresario e ingeniero visionario, Asif está comprometido a aprovechar el potencial de la inteligencia artificial para el bien social. Su esfuerzo más reciente es el lanzamiento de una plataforma de medios de inteligencia artificial, Marktechpost, que se destaca por su cobertura en profundidad del aprendizaje automático y las noticias sobre aprendizaje profundo que es técnicamente sólida y fácilmente comprensible para una amplia audiencia. La plataforma cuenta con más de 2 millones de visitas mensuales, lo que ilustra su popularidad entre el público.