Los investigadores de DeepSeek están intentando resolver un problema preciso en el entrenamiento de modelos de lenguaje grandes. Las conexiones residuales hicieron que las redes muy profundas fueran entrenables, las hiperconexiones ampliaron ese flujo residual y el entrenamiento se volvió inestable a escala. El nuevo método mHC, Manifold Constrained Hyper Connections, mantiene la topología más rica de las hiperconexiones pero bloquea el comportamiento de mezcla en un colector bien definido para que las señales permanezcan numéricamente estables en pilas muy profundas.
De conexiones residuales a hiperconexiones
Las conexiones residuales estándar, como en ResNets y Transformers, propagan activaciones con xl+1=xl+F(xl,Wl)
La ruta de identidad conserva la magnitud y mantiene los gradientes utilizables incluso cuando se apilan muchas capas.
Hyper Connections generaliza esta estructura. En lugar de un único vector residual de tamaño C, el modelo mantiene un buffer de n flujos 𝑥𝑙∈𝑅𝑛×𝐶. Tres asignaciones aprendidas controlan cómo cada capa lee y escribe este búfer:
Hlpre selecciona una mezcla de flujos como entrada de capa F es la subcapa habitual de atención o retroalimentación Hlpost escribe los resultados en el n buffer de flujos Hlres∈Rn×n mezcla flujos entre capas
La actualización tiene la forma
xl+1=Hlresxl+Hlpost⊤F(Hlprexl,Wl)
Con n establecido en 4, este diseño aumenta la expresividad sin un gran aumento en el costo del punto flotante, razón por la cual las hiperconexiones mejoran el rendimiento posterior en los modelos de lenguaje.
Por qué las hiperconexiones se vuelven inestables
El problema aparece cuando se observa el producto de mezcladores residuales en muchas capas. En un modelo de mezcla de 27B de expertos, DeepSeek estudia el mapeo compuesto
y define una magnitud de ganancia Amax basada en las sumas máximas de filas y columnas. Esta métrica mide la amplificación en el peor de los casos en las rutas de señal hacia adelante y hacia atrás. En el modelo de hiperconexión, esta ganancia alcanza picos alrededor de 3000, lejos del valor ideal 1 que se espera de una ruta residual estable.
Esto significa que pequeñas desviaciones por capa se combinan en factores de amplificación muy grandes en toda la profundidad. Los registros de entrenamiento muestran picos de pérdida y normas de gradiente inestables en relación con un modelo residual de referencia. Al mismo tiempo, mantener un búfer de flujo múltiple aumenta el tráfico de memoria para cada token, lo que hace que el escalado ingenuo de hiperconexiones no sea atractivo para la producción de modelos de lenguaje grandes.
Hiperconexiones restringidas por colector
mHC mantiene la idea residual de múltiples corrientes pero restringe la parte peligrosa. La matriz de mezcla residual Hlres ya no vive en el espacio completo n por n. En cambio, se proyecta sobre la variedad de matrices doblemente estocásticas, también llamada politopo de Birkhoff. En ese conjunto, todas las entradas no son negativas y cada fila y cada columna suman 1.
El equipo de DeepSeek aplica esta restricción con el algoritmo clásico de Sinkhorn Knopp de 1967, que alterna normalizaciones de filas y columnas para aproximarse a una matriz doblemente estocástica. El equipo de investigación utiliza 20 iteraciones por capa durante el entrenamiento, lo que es suficiente para mantener el mapeo cerca del colector objetivo y al mismo tiempo mantener los costos manejables.
Bajo estas restricciones, Hlresxl se comporta como una combinación convexa de corrientes residuales. La masa característica total se conserva y la norma se regulariza estrictamente, lo que elimina el crecimiento explosivo que se observa en las hiperconexiones simples. El equipo de investigación también parametriza las asignaciones de entrada y salida para que los coeficientes no sean negativos, lo que evita la cancelación entre flujos y mantiene clara la interpretación como promedio.
Con mHC, la magnitud de ganancia Amax compuesta permanece limitada y alcanza un máximo de aproximadamente 1,6 en el modelo 27B, en comparación con picos cercanos a 3000 para la variante sin restricciones. Esa es una reducción de aproximadamente 3 órdenes de magnitud en el peor de los casos, y proviene de una restricción matemática directa más que de trucos sintonizados.
Trabajo de sistemas y gastos generales de capacitación
Restringir cada mezclador residual con iteraciones estilo Sinkhorn agrega costos en papel. El equipo de investigación aborda esto con varias opciones de sistemas:
Los núcleos fusionados combinan RMSNorm, proyecciones y compuertas para las asignaciones de mHC para que el tráfico de memoria se mantenga bajo. Los intercambios de puntos de control de activación basados en recálculo calculan la memoria recalculando las activaciones de mHC durante la backprop para bloques de capas. La integración con un cronograma de canalización similar a DualPipe superpone la comunicación y el recálculo, de modo que el trabajo adicional no detenga el proceso de capacitación.
En carreras de entrenamiento internas a gran escala, mHC con una tasa de expansión n igual a 4 agrega aproximadamente un 6,7 por ciento de tiempo de entrenamiento adicional en relación con la arquitectura de referencia. Esa cifra ya incluye tanto el cómputo adicional de Sinkhorn Knopp como las optimizaciones de infraestructura.
Resultados empíricos
El equipo de investigación entrena una combinación de modelos expertos 3B, 9B y 27B y los evalúa en un conjunto de referencia de modelos de lenguaje estándar, que incluye tareas como BBH, DROP, GSM8K, HellaSwag, MMLU, PIQA y TriviaQA.
Para el modelo 27B, las cifras reportadas en un subconjunto de tareas muestran claramente el patrón:
Línea de base: BBH 43,8, DROP F1 47,0 Con hiperconexiones: BBH 48,9, DROP 51,6 Con mHC: BBH 51,0, DROP 53,9
Por lo tanto, las hiperconexiones ya proporcionan una ganancia sobre el diseño residual básico, y las múltiples hiperconexiones restringidas impulsan aún más el rendimiento al tiempo que restauran la estabilidad. Aparecen tendencias similares en otros puntos de referencia y en todos los tamaños de modelos, y las curvas de escalamiento sugieren que la ventaja persiste en todos los presupuestos de cómputo y durante toda la trayectoria de entrenamiento en lugar de solo en la convergencia.
Conclusiones clave
mHC estabiliza las corrientes residuales ensanchadas: mHC, Manifold Constrained Hyper Connections, amplía la vía residual en 4 corrientes que interactúan como HC, pero restringe las matrices de mezcla residuales en una variedad de matrices doblemente estocásticas, por lo que la propagación de largo alcance permanece controlada por la norma en lugar de explotar. La ganancia de explosión se reduce de ≈3000 a ≈1,6: para un modelo de 27B MoE, la magnitud de ganancia Amax del mapeo residual compuesto alcanza un máximo cerca de 3000 para HC sin restricciones, mientras que mHC mantiene esta métrica limitada alrededor de 1,6, lo que elimina el comportamiento de explosión del flujo residual que previamente interrumpió el entrenamiento. Sinkhorn Knopp aplica una mezcla residual doblemente estocástica: cada matriz de mezcla residual se proyecta con aproximadamente 20 iteraciones de Sinkhorn Knopp para que las filas y columnas sumen 1, lo que hace que el mapeo sea una combinación convexa de permutaciones, lo que restaura un comportamiento similar a la identidad y al mismo tiempo permite una rica comunicación entre flujos. Pequeños gastos generales de entrenamiento, ganancias posteriores mensurables: en los modelos DeepSeek MoE 3B, 9B y 27B, mHC mejora la precisión de las pruebas comparativas, por ejemplo, aproximadamente un 2,1 por ciento más en BBH para el modelo 27B, al tiempo que agrega solo aproximadamente un 6,7 por ciento de tiempo de entrenamiento adicional a través de núcleos fusionados, recalculación y programación consciente de canalizaciones. Introduce un nuevo eje de escala para el diseño de LLM: en lugar de escalar solo los parámetros o la longitud del contexto, mHC muestra que diseñar explícitamente la topología y las múltiples restricciones del flujo residual, por ejemplo el ancho y la estructura residuales, es una forma práctica de desbloquear un mejor rendimiento y estabilidad en futuros modelos de lenguaje grandes.
Consulte el DOCUMENTO COMPLETO aquí. Además, no dude en seguirnos en Twitter y no olvide unirse a nuestro SubReddit de más de 100.000 ML y suscribirse a nuestro boletín. ¡Esperar! estas en telegrama? Ahora también puedes unirte a nosotros en Telegram.
Asif Razzaq es el director ejecutivo de Marktechpost Media Inc.. Como empresario e ingeniero visionario, Asif está comprometido a aprovechar el potencial de la inteligencia artificial para el bien social. Su esfuerzo más reciente es el lanzamiento de una plataforma de medios de inteligencia artificial, Marktechpost, que se destaca por su cobertura en profundidad del aprendizaje automático y las noticias sobre aprendizaje profundo que es técnicamente sólida y fácilmente comprensible para una amplia audiencia. La plataforma cuenta con más de 2 millones de visitas mensuales, lo que ilustra su popularidad entre el público.