DeepSeek-AI acaba de lanzar DeepSeek-V3: un sólido modelo de lenguaje de mezcla de expertos (MoE) con 671 B de parámetros totales con 37 B activados para cada token

El campo del procesamiento del lenguaje natural (PLN) ha logrado avances significativos con el desarrollo de modelos de lenguaje a gran escala (LLM). Sin embargo, este progreso ha traído su propia serie de desafíos. La capacitación y la inferencia requieren recursos computacionales sustanciales, la disponibilidad de conjuntos de datos diversos y de alta calidad es fundamental y lograr una utilización equilibrada en arquitecturas de mezcla de expertos (MoE) sigue siendo complejo. Estos factores contribuyen a las ineficiencias y al aumento de los costos, lo que plantea obstáculos para ampliar los modelos de código abierto para que coincidan con sus homólogos propietarios. Además, garantizar la solidez y la estabilidad durante el entrenamiento es una cuestión constante, ya que incluso las inestabilidades menores pueden alterar el rendimiento y requerir intervenciones costosas.

DeepSeek-AI acaba de dar un regalo de Navidad al mundo de la IA al lanzar DeepSeek-V3, un modelo de lenguaje de mezcla de expertos (MoE) que presenta 671 mil millones de parámetros, con 37 mil millones activados por token. El modelo se basa en arquitecturas probadas como Multi-Head Latent Attention (MLA) y DeepSeekMoE, que se perfeccionaron en versiones anteriores. DeepSeek-V3 ha sido entrenado en un extenso conjunto de datos de 14,8 billones de tokens de alta calidad, lo que garantiza una base de conocimientos amplia y diversa. Es importante destacar que el modelo es completamente de código abierto, con modelos, artículos y marcos de capacitación accesibles para que los explore la comunidad de investigadores.

Detalles técnicos y beneficios

DeepSeek-V3 incorpora varias innovaciones destinadas a abordar desafíos de larga data en el campo. Su estrategia de equilibrio de carga auxiliar sin pérdidas garantiza una distribución eficiente de las cargas computacionales entre los expertos mientras mantiene el rendimiento del modelo. La adopción de un objetivo de entrenamiento de predicción de múltiples tokens mejora la eficiencia de los datos y facilita una inferencia más rápida a través de la decodificación especulativa. Además, el entrenamiento de precisión mixta del FP8 mejora la eficiencia computacional al reducir el uso de memoria de la GPU sin sacrificar la precisión. El algoritmo DualPipe minimiza aún más las burbujas en la canalización al superponer las fases de cálculo y comunicación, lo que reduce la sobrecarga de comunicación entre todos. Estos avances permiten que DeepSeek-V3 procese 60 tokens por segundo durante la inferencia, una mejora significativa con respecto a su predecesor.

Información y resultados sobre el rendimiento

DeepSeek-V3 ha sido evaluado rigurosamente en múltiples puntos de referencia, lo que demuestra un rendimiento sólido. En conjuntos de datos educativos como MMLU y MMLU-Pro, logró puntuaciones de 88,5 y 75,9, respectivamente, superando a otros modelos de código abierto. En tareas de razonamiento matemático, estableció nuevos estándares con una puntuación de 90,2 en MATH-500. El modelo también tuvo un desempeño excepcional en pruebas de codificación como LiveCodeBench. A pesar de estos logros, el costo de capacitación se mantuvo relativamente bajo en $5,576 millones, requiriendo sólo 2,788 millones de horas de GPU H800. Estos resultados resaltan la eficiencia de DeepSeek-V3 y su potencial para hacer que los LLM de alto rendimiento sean más accesibles.

Conclusión

DeepSeek-V3 representa un avance significativo en la investigación de PNL de código abierto. Al abordar los desafíos computacionales y arquitectónicos asociados con los modelos de lenguaje a gran escala, establece un nuevo punto de referencia para la eficiencia y el rendimiento. Sus métodos de capacitación innovadores, su arquitectura escalable y sus sólidos resultados de evaluación lo convierten en una alternativa competitiva a los modelos propietarios. El compromiso de DeepSeek-AI con el desarrollo de código abierto garantiza que la comunidad de investigación en general pueda beneficiarse de sus avances.


Verificar el Papel, Página de GitHub, y Modelo en abrazando a Facmi. Todo el crédito por esta investigación va a los investigadores de este proyecto. Además, no olvides seguirnos en Gorjeo y únete a nuestro Canal de telegramas y LinkedIn Grarriba. No olvides unirte a nuestro SubReddit de más de 60.000 ml.

🚨 Tendencias: LG AI Research lanza EXAONE 3.5: tres modelos bilingües de código abierto a nivel de inteligencia artificial de frontera que brindan un seguimiento de instrucciones incomparable y una amplia comprensión del contexto para el liderazgo global en la excelencia en inteligencia artificial generativa….


Asif Razzaq es el director ejecutivo de Marktechpost Media Inc.. Como emprendedor e ingeniero visionario, Asif está comprometido a aprovechar el potencial de la inteligencia artificial para el bien social. Su esfuerzo más reciente es el lanzamiento de una plataforma de medios de inteligencia artificial, Marktechpost, que se destaca por su cobertura en profundidad del aprendizaje automático y las noticias sobre aprendizaje profundo que es técnicamente sólida y fácilmente comprensible para una amplia audiencia. La plataforma cuenta con más de 2 millones de visitas mensuales, lo que ilustra su popularidad entre el público.