Los modelos de idiomas grandes que utilizan la arquitectura de la mezcla de expertos (MOE) han permitido aumentos significativos en la capacidad del modelo sin un aumento correspondiente en el cálculo. Sin embargo, este enfoque también introduce desafíos, especialmente cuando se trata de comunicación entre las GPU. En los modelos MOE, solo un subconjunto de expertos está activo para cualquier token dado, por lo que intercambiar datos de manera eficiente entre los dispositivos es fundamental. Los métodos tradicionales para la comunicación total pueden crear cuellos de botella que aumentan la latencia y subutilizan los recursos de GPU. En entornos sensibles a la latencia, como la inferencia en tiempo real, incluso los retrasos pequeños pueden afectar el rendimiento general. Además, aunque las operaciones de baja precisión (como FP8) ayudan a reducir el uso de la memoria, requieren una cuidadosa optimización para mantener la calidad del modelo. Estos problemas subrayan la necesidad de una biblioteca de comunicación adaptada a las demandas específicas del paralelismo experto.
Deepseek AI ha introducido recientemente Deepep, una biblioteca de comunicación diseñada específicamente para modelos MOE y paralelismo experto (EP). DeepEP aborda las ineficiencias inherentes a cómo se envían y se agregan tokens a través de las GPU. La biblioteca proporciona núcleos de GPU de alto rendimiento y de baja latencia, de baja latencia, conocidos de manera común como despacho de MOE y combina los núcleos, que agilizan el intercambio de datos durante la capacitación y la inferencia. En particular, Deepep admite operaciones de baja precisión (incluida FP8), alineándose con técnicas detalladas en el artículo Deepseek-V3. Esta versión responde directamente a los desafíos de escalar las arquitecturas MOE en entornos de intranode e internodos.
Descripción técnica y beneficios
Deepep ofrece dos tipos principales de núcleos diseñados para satisfacer diferentes necesidades operativas:
- Núcleos normales: Estos núcleos están optimizados para escenarios que requieren un alto rendimiento, como durante la fase previa a la fase de inferencia o entrenamiento. Reenvían eficientemente datos a través de las GPU aprovechando las tecnologías de redes NVLINK y RDMA. Por ejemplo, las pruebas en GPU de la tolva con NVLINK han demostrado un rendimiento de alrededor de 153 GB/s para la comunicación por intranode, mientras que las pruebas de internodo utilizan CX7 Infiniband (aproximadamente 50 GB/s ancho de banda) logran un rendimiento estable cerca de 43-47 GB/s. Al maximizar el ancho de banda disponible, estos núcleos reducen la sobrecarga de comunicación durante el envío de tokens y la combinación de resultados.
- Núcleos de baja latencia: Para tareas de inferencia donde la capacidad de respuesta es crucial, DeepEP proporciona núcleos de baja latencia que dependen únicamente de RDMA. Estos núcleos están diseñados para manejar pequeños lotes, comunes en aplicaciones en tiempo real, con latencias reportadas tan bajas como 163 microsegundos para operaciones de envío que involucran a ocho expertos. El diseño también incorpora una técnica de superposición de computación de comunicación basada en gancho que permite que las transferencias de datos ocurran simultáneamente con el cálculo, sin consumir multiprocesadores de transmisión de GPU (SMS).
Deepep ofrece flexibilidad a través de configuraciones adaptativas. Los usuarios pueden ajustar los parámetros, como el número de SMS en las variables de entorno de uso o establecer (por ejemplo, NVSHMEM_IB_SL) para administrar el aislamiento de tráfico. El enrutamiento adaptativo, que actualmente es compatible con los núcleos de baja latencia, ayuda a distribuir el tráfico de red de manera uniforme bajo cargas pesadas, mejorando así la robustez.
Insights de rendimiento y resultados prácticos
Las métricas de rendimiento para DeepEP son notables. En las pruebas típicas que usan núcleos normales, la comunicación de intranode puede lograr un rendimiento de hasta 153 GB/s, y las configuraciones de internodo mantienen alrededor de 43–47 GB/s sobre RDMA. Los núcleos de baja latencia son particularmente efectivos en los escenarios de producción; Para un lote de 128 tokens procesados con ocho expertos, la latencia de despacho puede ser tan baja como 163 microsegundos. Tales mejoras significan que el proceso de inferencia general se vuelve más eficiente, lo que permite tamaños de lotes más grandes y una superposición más suave entre el cálculo y la comunicación.
En términos prácticos, estas optimizaciones conducen a tiempos de respuesta más rápidos en la decodificación de inferencia y un mejor rendimiento en los escenarios de entrenamiento. La inclusión del soporte de FP8 no solo reduce la huella de la memoria, sino que también facilita las transferencias de datos más rápidas, lo cual es esencial cuando se implementa modelos en entornos donde los recursos son limitados.
Conclusión
Deepep es una contribución reflexiva al campo de la implementación del modelo de idioma a gran escala. Al abordar los cuellos de botella de comunicación clave en las arquitecturas MOE, permite un entrenamiento e inferencia más eficientes. Su enfoque de doble kernel, con un conjunto diseñado para un alto rendimiento y otro para la baja latencia, ofrece flexibilidad para una variedad de aplicaciones. Construido con soporte para operaciones de baja precisión y equipado con mecanismos para la configuración adaptativa, DeepEP ofrece a los investigadores y desarrolladores una herramienta práctica para optimizar aún más el paralelismo experto.
En resumen, la liberación de Deepep de Deepseek AI representa una solución cuidadosa y bien diseñada que equilibra el rendimiento con la eficiencia de los recursos. Su diseño ayuda a allanar el camino para modelos de IA más escalables y receptivos, apoyando tanto la investigación académica como las aplicaciones del mundo real de manera rentable.
Verificar el Página de Github. Todo el crédito por esta investigación va a los investigadores de este proyecto. Además, siéntete libre de seguirnos Gorjeo Y no olvides unirte a nuestro Subreddit de 80k+ ml.
Asif Razzaq es el CEO de MarktechPost Media Inc .. Como empresario e ingeniero visionario, ASIF se compromete a aprovechar el potencial de la inteligencia artificial para el bien social. Su esfuerzo más reciente es el lanzamiento de una plataforma de medios de inteligencia artificial, MarktechPost, que se destaca por su cobertura profunda de noticias de aprendizaje automático y de aprendizaje profundo que es técnicamente sólido y fácilmente comprensible por una audiencia amplia. La plataforma cuenta con más de 2 millones de vistas mensuales, ilustrando su popularidad entre el público.