Perplexity AI lanza TransferEngine y pplx garden para ejecutar billones de parámetros LLM en clústeres de GPU existentes

¿Cómo pueden los equipos ejecutar billones de modelos de lenguaje de parámetros en clústeres de GPU mixtos existentes sin hardware nuevo costoso o una fuerte dependencia del proveedor? El equipo de investigación de Perplexity ha lanzado TransferEngine y el conjunto de herramientas pplx garden circundante como infraestructura de código abierto para grandes sistemas de modelos de lenguaje. Esto proporciona una manera de ejecutar modelos con hasta 1 billón de parámetros en clústeres de GPU mixtos, sin depender de un único proveedor de nube ni comprar nuevo hardware de clase GB200.

https://arxiv.org/pdf/2510.27656

El verdadero cuello de botella: los tejidos de red, no los FLOP

Las implementaciones modernas de modelos Mixture of Experts como DeepSeek V3 con 671 mil millones de parámetros y Kimi K2 con 1 billón de parámetros ya no caben en un solo servidor de 8 GPU. Deben abarcar varios nodos, por lo que la principal limitación pasa a ser la estructura de red entre las GPU.

Aquí el panorama del hardware está fragmentado. NVIDIA ConnectX 7 normalmente utiliza el transporte Reliable Connection con entrega en pedido. AWS Elastic Fabric Adapter utiliza un transporte de datagrama confiable escalable que es confiable pero no funciona, y una sola GPU puede necesitar 4 adaptadores de red a 100 Gbps, o 2 a 200 Gbps, para alcanzar 400 Gbps.

Las bibliotecas existentes como DeepEP, NVSHMEM, MoonCake y NIXL tienden a optimizarse para un proveedor y degradarse o carecer de soporte para el otro. El equipo de investigación de Perplexity afirma directamente en el artículo de investigación que no existía una solución viable entre proveedores para la inferencia LLM antes de este trabajo.

TransferEngine, una capa RDMA portátil para sistemas LLM

TransferEngine aborda esto centrándose únicamente en la intersección de garantías entre los controladores de interfaz de red. Se supone que el transporte RDMA subyacente es confiable, pero no asume ningún orden de mensajes. Además de esto, expone operaciones WriteImm unilaterales y una primitiva ImmCounter para notificación de finalización.

La biblioteca proporciona una API mínima en Rust. Ofrece envío y recepción de dos caras para mensajes de control, y tres operaciones principales de una cara, submit_single_write, submit_paged_writes y submit_scatter, además de una primitiva de envío_barrier para sincronización entre un grupo de pares. Una estructura NetAddr identifica pares y una estructura MrDesc describe regiones de memoria registradas. Una llamada alloc_uvm_watcher crea un observador del lado del dispositivo para la sincronización de CPU y GPU en canalizaciones avanzadas.

Internamente, TransferEngine genera un subproceso de trabajo por GPU y crea un grupo de dominio por GPU que coordina entre 1 y 4 controladores de interfaz de red RDMA. Un solo ConnectX 7 proporciona 400 Gbps. En EFA, DomainGroup agrega 4 adaptadores de red a 100 Gbps, o 2 a 200 Gbps, para alcanzar el mismo ancho de banda. La lógica de fragmentación conoce todos los controladores de interfaz de red y puede dividir una transferencia entre ellos.

En cuanto al hardware, el equipo de investigación informa un rendimiento máximo de 400 Gbps tanto en NVIDIA ConnectX 7 como en AWS EFA. Esto coincide con las soluciones de plataforma única y confirma que la capa de abstracción no deja un gran rendimiento sobre la mesa.

pplx garden, el paquete de código abierto

TransferEngine se envía como parte del repositorio pplx garden en GitHub bajo una licencia del MIT. La estructura del directorio es sencilla. fabric-lib contiene la biblioteca RDMA TransferEngine, p2p-all-to-all implementa una mezcla de expertos todo para todos los núcleos, python-ext proporciona el módulo de extensión Python desde el núcleo de Rust y python/pplx_garden contiene el código del paquete Python.

Los requisitos del sistema reflejan un clúster de GPU moderno. El equipo de investigación de Perplexity recomienda el kernel de Linux 5.12 o posterior para compatibilidad con DMA BUF, CUDA 12.8 o posterior, libfabric, libibverbs, GDRCopy y un tejido RDMA con GPUDirect RDMA habilitado. Cada GPU debe tener al menos un controlador de interfaz de red RDMA dedicado.

Prellenado y decodificación desagregados

El primer caso de uso de producción es la inferencia desagregada. El precarga y la decodificación se ejecutan en clústeres separados, por lo que el sistema debe transmitir KvCache desde las GPU precargadas para decodificar las GPU a alta velocidad.

TransferEngine usa alloc_uvm_watcher para rastrear el progreso del modelo. Durante el prerrelleno, el modelo incrementa un valor de observador después de la proyección de salida de atención de cada capa. Cuando el trabajador observa un cambio, emite escrituras paginadas para las páginas KvCache de esa capa, seguidas de una única escritura para el contexto restante. Este enfoque permite la transmisión capa por capa de páginas de caché sin membresía mundial fija y evita las estrictas restricciones de orden de los colectivos.

Transferencia rápida de peso para el aprendizaje por refuerzo

El segundo sistema es el ajuste fino del aprendizaje por refuerzo asincrónico, donde el entrenamiento y la inferencia se ejecutan en grupos de GPU separados. Los diseños tradicionales reúnen parámetros actualizados en un único rango y luego los transmiten, lo que limita el rendimiento a un controlador de interfaz de red.

En cambio, el equipo de investigación de Perplexity utiliza TransferEngine para realizar transferencias de peso de punto a punto. Cada GPU de entrenamiento escribe su fragmento de parámetro directamente en las GPU de inferencia correspondientes mediante escritura unilateral. Una ejecución canalizada divide cada tensor en etapas, copia del host al dispositivo cuando los datos completamente fragmentados en paralelo descargan pesos, reconstrucción y cuantificación opcional, transferencia RDMA y una barrera implementada a través de dispersión e ImmCounter.

En producción, esta configuración ofrece actualizaciones de peso para modelos como Kimi K2 con 1 billón de parámetros y DeepSeek V3 con 671 mil millones de parámetros en aproximadamente 1,3 segundos, desde 256 GPU de entrenamiento hasta 128 GPU de inferencia.

Combinación de expertos en enrutamiento a través de ConnectX y EFA

La tercera pieza en pplx garden es una mezcla punto a punto de expertos que envían y combinan núcleos. Utiliza NVLink para el tráfico dentro del nodo y RDMA para el tráfico entre nodos. El envío y la combinación se dividen en fases separadas de envío y recepción para que el decodificador pueda realizar micro lotes y superponer la comunicación con la matriz general agrupada.

Un subproceso de proxy del host sondea el estado de la GPU y llama a TransferEngine cuando los buffers de envío están listos. Primero se intercambian las rutas, luego cada rango calcula las compensaciones de recepción contiguas para cada experto y escribe tokens en buffers privados que se pueden reutilizar entre el envío y la combinación. Esto reduce el uso de memoria y mantiene las escrituras lo suficientemente grandes como para utilizar todo el ancho de banda del enlace.

En ConnectX 7, el equipo de investigación de Perplexity informa una latencia de decodificación de última generación que es competitiva con DeepEP según los recuentos de expertos. En AWS EFA, el mismo kernel ofrece las primeras latencias de decodificación MoE viables con valores más altos pero aún prácticos.

En pruebas de múltiples nodos con DeepSeek V3 y Kimi K2 en instancias AWS H200, la distribución del modelo entre nodos reduce la latencia en tamaños de lotes medianos, que es el régimen común para el servicio de producción.

Tabla comparativa

Punto claveTransferEngine (pplx garden)ProfundoEPNVSHMEM (uso genérico de MoE)MooncakeFunción principalRDMA portátil punto a punto para sistemas LLMMoE todo a todos despacha y combina Memoria compartida y colectivos de GPU generalCaché KV distribuido para inferencia LLMEnfoque de hardwareNVIDIA ConnectX 7 y AWS EFA, múltiples NIC por GPUNVIDIA ConnectX con RDMA iniciado por GPU IBGDANVIDIA GPU en RDMA Fabrics que incluyen EFARDMA NIC en pilas de servicio centradas en KV Estado de EFA Soporte total, pico de 400 Gbps informado No hay soporte, requiere IBGDA en Connect X API funciona pero el uso de MoE muestra una degradación severa en EFA Paper informa que no hay soporte de EFA en su motor RDMA Portabilidad para sistemas LLM Proveedor cruzado, API única en ConnectX 7 y EFA Específico del proveedor y enfocado en ConnectX Centrado en NVIDIA, no es viable para el enrutamiento EFA MoE Enfocado en KV compartir, sin soporte entre proveedores

Conclusiones clave

TransferEngine ofrece una única abstracción RDMA punto a punto que funciona tanto en NVIDIA ConnectX 7 como en AWS EFA, y administra múltiples controladores de interfaz de red por GPU de forma transparente. La biblioteca expone WriteImm unilateral con ImmCounter y alcanza un rendimiento máximo de 400 Gbps en ambas familias de NIC, lo que le permite coincidir con pilas de un solo proveedor sin dejar de ser portátil. El equipo de Perplexity utiliza TransferEngine en tres sistemas de producción, decodificación de precarga desagregada con transmisión KvCache, transferencia de peso de aprendizaje por refuerzo que actualiza billones de modelos de parámetros en aproximadamente 1,3 segundos y combinación de despacho de Mezcla de Expertos para modelos grandes como Kimi K2. En ConnectX 7, los núcleos MoE de pplx garden proporcionan latencia de decodificación de última generación y superan a DeepEP en el mismo hardware, mientras que en EFA ofrecen las primeras latencias MoE prácticas para billones de cargas de trabajo de parámetros. Debido a que TransferEngine es de código abierto en pplx garden bajo una licencia del MIT, los equipos pueden ejecutar una combinación de expertos muy grande y modelos densos en clústeres H100 o H200 heterogéneos entre proveedores de nube, sin tener que reescribir la pila de redes específica de cada proveedor.

El lanzamiento de TransferEngine y pplx garden por parte de Perplexity es una contribución práctica para los equipos de infraestructura de LLM que están bloqueados por pilas de redes específicas de proveedores y costosas actualizaciones de estructura. Una abstracción RDMA portátil que alcanza un máximo de 400 Gbps tanto en NVIDIA ConnectX 7 como en AWS EFA, admite transmisión KvCache, transferencia rápida de peso de aprendizaje por refuerzo y enrutamiento Mixture of Experts, y aborda directamente billones de restricciones de servicio de parámetros para sistemas reales.

Consulte el documento y el repositorio. No dude en consultar nuestra página de GitHub para tutoriales, códigos y cuadernos. Además, no dude en seguirnos en Twitter y no olvide unirse a nuestro SubReddit de más de 100.000 ML y suscribirse a nuestro boletín. ¡Esperar! estas en telegrama? Ahora también puedes unirte a nosotros en Telegram.

Asif Razzaq es el director ejecutivo de Marktechpost Media Inc.. Como empresario e ingeniero visionario, Asif está comprometido a aprovechar el potencial de la inteligencia artificial para el bien social. Su esfuerzo más reciente es el lanzamiento de una plataforma de medios de inteligencia artificial, Marktechpost, que se destaca por su cobertura en profundidad del aprendizaje automático y las noticias sobre aprendizaje profundo que es técnicamente sólida y fácilmente comprensible para una amplia audiencia. La plataforma cuenta con más de 2 millones de visitas mensuales, lo que ilustra su popularidad entre el público.

🙌 Siga MARKTECHPOST: agréguenos como fuente preferida en Google.

Perplexity AI lanza TransferEngine y pplx garden para ejecutar billones de parámetros LLM en clústeres de GPU existentes

ByEquipo de 7 minutos

El verdadero cuello de botella: los tejidos de red, no los FLOP

TransferEngine, una capa RDMA portátil para sistemas LLM

pplx garden, el paquete de código abierto

Prellenado y decodificación desagregados

Transferencia rápida de peso para el aprendizaje por refuerzo

Combinación de expertos en enrutamiento a través de ConnectX y EFA

Tabla comparativa

Conclusiones clave

By Equipo de 7 minutos

Related Post

Trabajando para automatizar las operaciones de las plantas nucleares | Noticias del MIT

Por qué agregar más agentes de IA hizo que nuestro sistema fuera más lento

Lecciones aprendidas después de 8,5 años de aprendizaje automático

You missed

Trabajando para automatizar las operaciones de las plantas nucleares | Noticias del MIT

La estructura de la Vía Láctea puede haber dado forma a los continentes de la Tierra: ScienceAlert

Morant niega haber comparado a Feijóo con Hitler, pero insiste en que los “gobiernos nazis” empezaron con políticas como la “prioridad nacional”

Google multada con el 0,22 % de su facturación