El entrenamiento de modelos de IA de frontera es, en esencia, un problema de coordinación. Miles de chips deben comunicarse entre sí continuamente, sincronizando cada actualización de gradiente en la red. Cuando un chip falla o incluso se ralentiza, todo el entrenamiento puede detenerse. A medida que los modelos escalan hacia cientos de miles de millones de parámetros, esa fragilidad se vuelve cada vez más insostenible. Google DeepMind propone ahora un modelo completamente diferente.
Los investigadores de Google DeepMind presentaron DiLoCo desacoplado (baja comunicación distribuida), una arquitectura de capacitación distribuida que desacopla la computación en “islas” asincrónicas y aisladas de fallas, lo que permite la capacitación previa de grandes modelos de lenguaje en centros de datos geográficamente distantes sin requerir la estrecha sincronización que hace que los enfoques convencionales sean frágiles a escala.
El problema de la formación distribuida tradicional
Para comprender por qué es importante DiLoCo desacoplado, es útil comprender cómo funciona normalmente la capacitación distribuida. El entrenamiento estándar de datos paralelos replica un modelo en muchos aceleradores (GPU o TPU), cada uno de los cuales procesa un mini lote de datos diferente. Después de cada paso hacia adelante y hacia atrás, se deben promediar los gradientes en cada dispositivo (un proceso llamado AllReduce) antes de que pueda comenzar el siguiente paso de entrenamiento. Este paso de sincronización de bloqueo significa que cada dispositivo debe esperar al más lento. En miles de chips que abarcan múltiples centros de datos, ese cuello de botella no sólo es un inconveniente; hace que la capacitación a escala global sea efectivamente impracticable.
El ancho de banda es otra limitación importante. La capacitación convencional de datos paralelos requiere aproximadamente 198 Gbps de ancho de banda entre centros de datos en ocho centros de datos, mucho más de lo que las redes de área amplia (WAN) estándar pueden admitir entre instalaciones distribuidas geográficamente.
Cómo funciona DiLoCo desacoplado
DiLoCo desacoplado se basa en dos sistemas anteriores de Google. El primero es Pathways, que introdujo un sistema de inteligencia artificial distribuido basado en un flujo de datos asincrónico, lo que permite que diferentes recursos informáticos trabajen a su propio ritmo sin bloquearse entre sí. El segundo es DiLoCo, que redujo drásticamente el ancho de banda entre centros de datos requerido para la capacitación distribuida al hacer que cada trabajador realice muchos pasos de gradiente locales antes de comunicarse con sus pares, reduciendo drásticamente la cantidad de datos que deben fluir entre los centros de datos.
DiLoCo desacoplado reúne ambas ideas. Construida sobre Pathways, la capacitación se divide en grupos separados de aceleradores llamados unidades de aprendizaje: las “islas” de la computación. Cada unidad de aprendizaje se entrena de forma semiindependiente, realizando muchos pasos locales, antes de compartir una señal de gradiente comprimida con un optimizador externo que agrega actualizaciones en todas las unidades de aprendizaje. Debido a que este paso de sincronización externa es asincrónico, una falla en el chip o una unidad de aprendizaje lenta en una isla no impide que las demás continúen entrenando.
Los ahorros de ancho de banda son espectaculares. DiLoCo desacoplado reduce el ancho de banda requerido entre centros de datos de 198 Gbps a solo 0,84 Gbps en ocho centros de datos (varios órdenes de magnitud menos), lo que lo hace compatible con la conectividad estándar a escala de Internet entre instalaciones de centros de datos en lugar de requerir una infraestructura de red de alta velocidad personalizada.
Autocuración a través de la ingeniería del caos
Una de las propiedades técnicamente más importantes de DiLoCo desacoplado es su tolerancia a fallos. El equipo de investigación utilizó ingeniería del caos, un método que introduce deliberadamente fallas de hardware artificiales en un sistema en ejecución para probar su robustez durante las ejecuciones de entrenamiento. El sistema continuó entrenando después de la pérdida de unidades enteras de alumnos y luego reintegró esas unidades sin problemas cuando volvieron a estar en línea. Este comportamiento es lo que el equipo de investigación describe como “autocuración”.
En simulaciones que involucraron 1,2 millones de chips con altas tasas de falla, DiLoCo desacoplado mantuvo un buen rendimiento (la fracción de tiempo que el sistema realiza un entrenamiento útil) del 88 %, en comparación con solo el 27 % de los métodos estándar de datos paralelos. El buen rendimiento es la métrica práctica que importa aquí: una ejecución de entrenamiento con un cálculo nominal alto pero un buen rendimiento bajo desperdicia recursos significativos.
Fundamentalmente, estas ganancias en resiliencia vienen con una degradación mínima en la calidad del modelo. En experimentos del mundo real utilizando modelos Gemma 4, DiLoCo desacoplado logró una precisión de referencia de ML promedio del 64,1 %, en comparación con el 64,4 % de la línea de base convencional, una diferencia muy dentro del ruido de la variación de evaluación típica.
Entrenamiento de un modelo 12B en cuatro regiones de EE. UU.
El equipo de investigación validó DiLoCo desacoplado a escala de producción al entrenar con éxito un modelo de 12 mil millones de parámetros en cuatro regiones separadas de EE. UU. utilizando solo de 2 a 5 Gbps de red de área amplia, un nivel de ancho de banda que se puede lograr con la infraestructura de Internet comercial existente entre las instalaciones del centro de datos. El sistema logró esto más de 20 veces más rápido que los métodos de sincronización convencionales. La razón clave: en lugar de obligar a la computación a pausar y esperar a que se complete la comunicación, DiLoCo desacoplado incorpora la comunicación requerida en períodos de computación más largos, eliminando los cuellos de botella de “bloqueo” que hacen que la capacitación distribuida convencional sea lenta a escala global.
Mezcla de generaciones de hardware
Una implicación subestimada de la arquitectura es su soporte para hardware heterogéneo. Debido a que las unidades de aprendizaje funcionan de forma asincrónica, no es necesario que funcionen en hardware idéntico a la misma velocidad de reloj. El equipo de investigación demostró ejecuciones de entrenamiento que mezclaban chips TPU v6e y TPU v5p (diferentes generaciones de hardware con diferentes características de rendimiento) en un solo trabajo de entrenamiento, sin degradar el rendimiento de ML en relación con ejecuciones homogéneas.
Esto tiene dos consecuencias prácticas que vale la pena señalar. En primer lugar, extiende la vida útil del hardware existente, permitiendo que los aceleradores más antiguos sigan contribuyendo de manera significativa a la capacitación a gran escala. En segundo lugar, debido a que las nuevas generaciones de hardware no llegan a todas partes al mismo tiempo, poder capacitar a varias generaciones puede aliviar los recurrentes cuellos de botella logísticos y de capacidad que surgen durante los períodos de transición de hardware, un verdadero desafío operativo en las organizaciones que ejecutan una gran infraestructura de capacitación.
Conclusiones clave
DiLoCo desacoplado elimina el problema del punto único de falla en el entrenamiento de IA a gran escala al dividir el entrenamiento en “islas” de computación asincrónicas y aisladas de fallas llamadas unidades de aprendizaje, de modo que una falla de un chip o clúster en una isla no detenga el resto de la ejecución del entrenamiento. La arquitectura reduce los requisitos de ancho de banda entre centros de datos en órdenes de magnitud (de 198 Gbps a 0,84 Gbps en ocho centros de datos), lo que hace factible la capacitación previa distribuida globalmente a través de redes de área amplia estándar en lugar de requerir una infraestructura personalizada de alta velocidad. DiLoCo desacoplado se cura a sí mismo: utilizando ingeniería del caos para simular fallas de hardware reales, el sistema mantuvo un buen rendimiento del 88 % en comparación con solo el 27 % de la capacitación estándar de datos en paralelo con altas tasas de falla, y reintegró sin problemas las unidades de estudiantes fuera de línea cuando volvieron a estar en línea. El enfoque se validó a escala de producción, entrenando con éxito un modelo de 12 mil millones de parámetros en cuatro regiones de EE. UU., logrando esto más de 20 veces más rápido que los métodos de sincronización convencionales al integrar la comunicación en la computación en lugar de tratarla como un paso de bloqueo. DiLoCo desacoplado admite hardware heterogéneo en una sola ejecución de entrenamiento, como se demuestra al mezclar chips TPU v6e y TPU v5p sin degradación del rendimiento, lo que extiende la vida útil de los aceleradores más antiguos y alivia los cuellos de botella de capacidad durante las transiciones de generación de hardware.
Consulte el documento y los detalles técnicos. Además, no dude en seguirnos en Twitter y no olvide unirse a nuestro SubReddit de más de 130.000 ML y suscribirse a nuestro boletín. ¡Esperar! estas en telegrama? Ahora también puedes unirte a nosotros en Telegram.
¿Necesita asociarse con nosotros para promocionar su repositorio de GitHub O su página principal de Hugging O su lanzamiento de producto O seminario web, etc.? Conéctate con nosotros