Zyphra presenta el paralelismo de secuencia y tensor (TSP): una estrategia de inferencia y entrenamiento basada en hardware que ofrece un rendimiento 2,6 veces mayor que las líneas base TP+SP coincidentes

ByEquipo de 7 minutos

May 5, 2026 #basada, #base, #coincidentes, #entrenamiento, #estrategia, #hardware, #inferencia, #las, #líneas, #mayor, #ofrece, #paralelismo, #presenta, #rendimiento, #secuencia, #Tensor, #TPSP, #TSP, #una, #veces, #Zyphra

Zyphra presenta el paralelismo de secuencia y tensor (TSP): una estrategia de inferencia y entrenamiento basada en hardware que ofrece un rendimiento 2,6 veces mayor que las líneas base TP+SP coincidentes

Entrenar y servir modelos de transformadores grandes a escala es fundamentalmente un problema de gestión de memoria. Cada GPU en un clúster tiene una cantidad fija de VRAM y, a medida que crecen los tamaños de los modelos y la duración del contexto, los ingenieros tienen que hacer concesiones constantemente sobre cómo distribuir el trabajo entre el hardware. Una nueva técnica de Zyphra, llamada Tensor and Sequence Parallelism (TSP), ofrece una manera de repensar esa compensación, y en pruebas comparativas en hasta 1,024 GPU AMD MI300X, ofrece consistentemente una memoria máxima por GPU más baja que cualquiera de los esquemas de paralelismo estándar utilizados hoy en día, tanto para cargas de trabajo de entrenamiento como de inferencia.

https://www.zyphra.com/post/tsp

El problema que TSP está resolviendo

Para comprender por qué TSP es importante, primero debe comprender las dos estrategias de paralelismo que reúne.

El paralelismo tensorial (TP) divide los pesos del modelo entre las GPU. Si tiene una matriz de peso en una capa de atención o MLP, cada GPU en el grupo TP contiene solo una fracción de esa matriz. Esto reduce directamente la memoria por GPU ocupada por parámetros, gradientes y estados del optimizador: la memoria de “estado del modelo”. La desventaja es que TP requiere operaciones de comunicación colectiva (normalmente pares de reducción total o reducción-dispersión/reunión total) cada vez que se calcula una capa. Esta comunicación es proporcional al tamaño de la activación, por lo que se vuelve cada vez más costosa a medida que crece la longitud de la secuencia.

El paralelismo de secuencia (SP) adopta un enfoque diferente. En lugar de dividir pesos, divide la secuencia de tokens de entrada entre las GPU. Cada GPU procesa solo una fracción de los tokens, lo que reduce la memoria de activación y el costo cuadrático del cálculo de la atención. Sin embargo, SP deja los pesos del modelo completamente replicados en cada GPU, lo que significa que la memoria de estado del modelo permanece exactamente igual independientemente de cuántas GPU agregue al grupo de SP.

En el paralelismo multidimensional estándar, los ingenieros combinan TP y SP colocándolos en ejes ortogonales de una malla de dispositivo. Si desea un grado TP de T y un grado SP de Σ, la réplica de su modelo consume T.Σ GPU. Esto es caro en dos sentidos. En primer lugar, utiliza más GPU para el grupo de modelos paralelos, lo que deja menos disponibles para las réplicas de datos paralelos. En segundo lugar, si T.Σ es lo suficientemente grande como para abarcar múltiples nodos, parte de la comunicación colectiva tiene que viajar a través de interconexiones entre nodos más lentas como InfiniBand o Ethernet en lugar de la estructura intranodo de alto ancho de banda, como AMD Infinity Fabric o NVIDIA NVLink. El paralelismo de datos (DP), la otra línea de base común, evita por completo estos costos de modelo paralelo, pero replica todo el estado del modelo en cada dispositivo, lo que lo hace poco práctico para modelos grandes o contextos prolongados por sí solo.

Lo que realmente significa plegar

La idea central de TSP es el plegado en paralelismo: en lugar de colocar TP y SP en dimensiones de malla ortogonales separadas, colapsa ambos en un único eje de malla de dispositivo de tamaño D. Cada GPU en el grupo TSP contiene simultáneamente 1/D de los pesos del modelo y 1/D de la secuencia de tokens. Debido a que ambas están fragmentadas en las mismas GPU D, la huella de memoria por dispositivo disminuye en 1/D tanto para la memoria de parámetros como para la memoria de activación, algo que ningún esquema de paralelismo estándar logra por sí solo. Por lo tanto, TSP es el único esquema que reduce simultáneamente la memoria proporcional al peso (parámetros, gradientes, estados del optimizador) y la memoria de activación por el mismo factor 1/D en un solo eje sin requerir un diseño de dispositivo T.Σ bidimensional.

El desafío es que si cada GPU solo tiene parte de los pesos y parte de la secuencia, necesita coordinarse con otras GPU para completar el avance de cada capa. TSP utiliza dos programas de comunicación diferentes para manejar esto, uno para atención y otro para el MLP cerrado.

Para llamar la atención, TSP itera sobre fragmentos de peso. En cada paso, una GPU transmite sus fragmentos de peso de atención empaquetados (WQ, WK, WV y WO) a todas las demás GPU del grupo. Luego, cada GPU aplica esos pesos a sus tokens de secuencia local para calcular las proyecciones locales Q, K y V. Dado que la atención causal requiere acceso al contexto clave/valor completo, los tensores K y V locales se reúnen en todo el grupo TSP y se reordenan utilizando un esquema de partición en zigzag antes de aplicar FlashAttention. La partición en zigzag garantiza que la carga de trabajo de atención causal esté equilibrada entre los rangos, ya que los tokens posteriores atienden a prefijos más grandes y, de lo contrario, provocarían un desequilibrio de carga.

Para el MLP cerrado, TSP utiliza un programa de timbre. Cada GPU comienza con fragmentos locales de la puerta, proyecciones hacia arriba y hacia abajo. Estos fragmentos de peso circulan por el grupo TSP mediante operaciones de envío/recepción punto a punto, y cada GPU acumula salidas parciales localmente a medida que llegan los fragmentos. Fundamentalmente, esto elimina la reducción total que requiere el TP estándar para la salida MLP: la secuencia permanece local y solo se mueven los pesos. El anillo está diseñado para superponer las transferencias de peso con el cálculo GEMM, por lo que la comunicación se produce en segundo plano mientras la GPU está computando.

Resultados de memoria y rendimiento

Probado en un único nodo MI300X de 8 GPU en longitudes de secuencia de tokens de 16K a 128K, TSP logra el pico de memoria más bajo en cada punto. En tokens de 16K, TSP y TP son casi equivalentes, 31,0 GB frente a 31,5 GB por GPU, porque la memoria de estado del modelo domina en el contexto corto. Con 128.000 tokens, el panorama cambia drásticamente: TSP usa 38,8 GB por GPU, en comparación con 70,0 GB para TP y 85,0 GB y 140,0 GB para dos factorizaciones diferentes de TP+SP en el mismo nodo. Las cifras teóricas a lo largo de esta investigación se basan en un modelo de referencia de transformador denso solo decodificador 7B (dimensión oculta h=4096, 32 capas, 32 cabezales de consulta, cabezales de 32 KV, factor de expansión FFN F=4, precisión bf16), lo que proporciona una línea de base reproducible para comparar los esquemas.

Los resultados de rendimiento en 128 nodos completos (1024 GPU MI300X) muestran que TSP supera consistentemente las líneas base de TP+SP coincidentes. Con un grado de plegado de D=8 y una longitud de secuencia de 128 000 tokens, TSP logra 173 millones de tokens por segundo en comparación con 66,30 millones de tokens por segundo para la línea base TP+SP coincidente (aproximadamente una aceleración de 2,6 veces). La ventaja aumenta con un mayor grado de paralelismo y una mayor longitud de secuencia.

Compensaciones prácticas que hay que entender

TSP aumenta el volumen total de comunicación en comparación con TP solo. Agrega un término de movimiento de peso por capa además del mismo conjunto K/V proporcional a la activación que utiliza SP. Sin embargo, el equipo de investigación muestra que cuando el tamaño de lote B y la longitud de secuencia S satisfacen BS > 8h (donde h es la dimensión de incrustación del modelo), el volumen de comunicación directa de TSP es competitivo con el de TP. Esta condición se cumple en la mayoría de los escenarios de inferencia y entrenamiento de contexto largo.

La idea clave que enfatiza el equipo de Zyphra es que el volumen de comunicación y el costo de la comunicación no son lo mismo. Que un volumen de comunicación adicional se traduzca en una desaceleración del reloj de pared depende de si los colectivos están limitados por la latencia o por el ancho de banda, y cuánto de ese tráfico puede superponerse con la multiplicación de matrices. Su implementación canaliza transferencias de peso detrás de las operaciones GEMM dominantes, de modo que la comunicación de peso consume ancho de banda sin aumentar el tiempo de ruta crítica.

TSP no está diseñado para reemplazar TP, SP o TP+SP en todas las configuraciones. Está pensado como un eje adicional en el espacio de diseño de paralelismo multidimensional. Se compone ortogonalmente con paralelismo de canalización, paralelismo experto y paralelismo de datos. Esto significa que los equipos pueden ubicar TSP en una configuración de paralelismo existente donde el diseño estándar obligaría a grupos de modelos paralelos a través de enlaces entre nodos más lentos.

Conclusiones clave

El tensor y el paralelismo de secuencia (TSP) de Zyphra pliega el paralelismo del tensor y el paralelismo de secuencia en un único eje de malla de dispositivo, de modo que cada GPU contiene simultáneamente 1/D de los pesos del modelo y 1/D de la secuencia de tokens, lo que reduce la sobrecarga de memoria tanto para el entrenamiento como para la inferencia. TSP es el único esquema de paralelismo que reduce tanto la memoria proporcional al peso (parámetros, gradientes, estados del optimizador) como la memoria de activación por el mismo factor 1/D en un solo eje, sin requerir una malla de dispositivo T.Σ bidimensional. Los resultados empíricos en un único nodo MI300X de 8 GPU muestran que TSP utiliza 38,8 GB por GPU con una longitud de secuencia de 128 K, en comparación con 70,0 GB para TP y 85,0–140,0 GB para configuraciones TP+SP. A gran escala (1024 GPU MI300X, contexto de 128K, D=8), TSP logra 173 millones de tokens por segundo frente a 66,30 millones de tokens por segundo para una línea base TP+SP coincidente (aproximadamente una ventaja de rendimiento de 2,6 veces). TSP se compone ortogonalmente con paralelismo de canalización, expertos y datos y es más adecuado para cargas de trabajo de inferencia y entrenamiento de contexto largo y con memoria limitada, donde la eliminación del peso y la replicación de activación superan el volumen de comunicación agregado.

Consulte el documento y los detalles técnicos. Además, no dude en seguirnos en Twitter y no olvide unirse a nuestro SubReddit de más de 130.000 ML y suscribirse a nuestro boletín. ¡Esperar! estas en telegrama? Ahora también puedes unirte a nosotros en Telegram.

¿Necesita asociarse con nosotros para promocionar su repositorio de GitHub O su página principal de Hugging O su lanzamiento de producto O seminario web, etc.? Conéctate con nosotros

By Equipo de 7 minutos

Inteligencia artificial

Robbyant de Ant Group presenta LingBot-VA 2.0: un modelo de acción de vídeo causal creado de forma nativa para la IA física

Jul 11, 2026 Equipo de 7 minutos

Inteligencia artificial

Conozca Nemotron Labs 3 Puzzle 75B A9B: un LLM MoE híbrido comprimido que ofrece un rendimiento de servidor 2,03x[0]Los modelos MoE híbridos grandes como Nemotron-3-Super son precisos pero costosos de mantener. Sus parámetros activos, caché KV y estado de Mamba limitan la cantidad de usuarios que puede contener un nodo a una determinada tasa de token por usuario. El equipo de IA de NVIDIA lanzó Nemotron-Labs-3-Puzzle-75B-A9B, una variante comprimida de Nemotron-3-Super. El modelo principal tiene 120,7 mil millones de parámetros totales y 12,8 mil millones activos. El modelo comprimido tiene 75,3 mil millones de parámetros totales y 9,3 mil millones de parámetros activos. El objetivo de implementación se solucionó antes de que comenzara la búsqueda de arquitectura. El objetivo uno era duplicar el rendimiento del servidor a 100 tokens por segundo por usuario. El objetivo dos eran 8 solicitudes simultáneas de 1 millón de tokens en un solo H100. Tres puntos de control en Hugging Face: BF16, FP8 y NVFP4. TL;DR Los 120,7B/12,8B activos se comprimen a 75,3B/9,3B activos, conservando el diseño híbrido de 88 bloques. El rendimiento total de 8xB200 aumenta de 1,60x a 2,14x con respecto a Super con NVFP4 coincidente y rendimiento de usuario coincidente. La simultaneidad de un solo token H100 de 1 millón va de 1 a 8, impulsada por una caída de peso de 70 GB a 44,5 GB. El rompecabezas iterativo supera al rompecabezas de un solo paso en 0,57 puntos promedio en el mismo objetivo de compresión. Arena-Hard-V2 (-4,2) y SWE-Bench (-2,6) son los costes reales; RULER y AA-LCR apenas se mueven. Nemotron-Labs-3-Puzzle-75B-A9B Nemotron-3-Super es un modelo híbrido Mamba-Transformer MoE. Puzzle-75B-A9B conserva exactamente el diseño del bloque principal. Tiene 88 bloques: 40 Mamba, 40 MoE y 8 bloques de atención. Lo que cambió es la capacidad dentro de esos bloques: CantidadSuperPuzzle-75B-A9BRatioParámetros totales120.7B75.3B62.4%Parámetros activos12.8B9.3B73.1%Tamaño de estado de Mamba SSM1289675%Tamaño intermedio experto enrutado MoE26881280-2688Media 59.9%Expertos enrutados activados por token224-18Media 50%Capacidad experta enrutada activa (relativo)100%8,7%-62,3%Media 30,9% El número de expertos enrutados, el tamaño de expertos compartido y el tamaño latente del MoE no cambian. Las capas de atención quedaron intactas. La razón declarada por la investigación propuesta es que Nemotron-3-Super ya es muy eficiente en cuanto a caché KV. Las capas de Mamba se podaron de manera uniforme, porque los marcos de inferencia no admiten un tamaño de estado SSM diferente por capa. https://arxiv.org/pdf/2607.04371 El resultado no es un profesor uniformemente reducido. La figura anterior muestra la asignación en profundidad. Puzzle conservó la capacidad en capas intermedias y tardías seleccionadas, y cortó con fuerza en otras partes. Punto de referencia y rendimiento La siguiente tabla informa el rendimiento total óptimo de Pareto en un único nodo 8xB200, con decodificación en un solo paso. Escenario (entrada/salida)Piso UTSuper (tok/s)Puzzle-75B-A9B (tok/s)Boost50K / 2K>= 1005,1288,2101.60x50K / 2K>= 1253,7846,4121.69x50K / 2K>= 1502,5324,5231.79x8K / 64K>= 10020,93942,6012.03x8K / 64K>= 12513,07427,9182.14x8K / 64K>= 1508,52218,0472.12x Ambos modelos se entregaron con pesos NVFP4 coincidentes, caché FP8 KV y estado Mamba FP16. Por lo tanto, la brecha refleja compresión, no un cambio en el formato numérico. El régimen 50K/2K con precarga pesada es el que menos gana. El régimen 8K/64K con gran decodificación es el que más gana. En un solo nodo 8xH100 en UT = 100, las ganancias son menores. Son 1,91x en 50K/2K y 1,82x en 8K/64K. Ambos modelos utilizan pesos FP8, caché FP8 KV y estado FP32 Mamba. En un único H100 en un contexto de 1M, la restricción de enlace pasa de la computación a la memoria. Los pesos NVFP4 de Super ocupan alrededor de 70 GB del presupuesto de 80 GB de HBM. Cada solicitud de token de 1 millón agrega aproximadamente 4 GB de caché KV. Por tanto, la concurrencia efectiva es 1. El peso NVFP4 del Puzzle-75B-A9B ocupa alrededor de 44,5 GB. El diseño de atención no cambia, por lo que el costo de KV por solicitud no cambia. La simultaneidad en 1M aumenta a 8. El rendimiento de decodificación agregado en esa simultaneidad es aproximadamente 4 veces el rendimiento de solicitud única de Super. El llenado previo de una solicitud de 990 000 tokens es aproximadamente 1,2 veces más rápido. Cómo funciona el rompecabezas iterativo Puzzle es un marco de búsqueda de arquitectura neuronal descompuesta, implementado aquí como Puzzletron. Define un espacio de búsqueda discreto de implementaciones de capas alternativas. Cada alternativa obtiene una puntuación de calidad. Luego, un programa de enteros mixtos selecciona una alternativa por capa bajo una restricción de implementación. Tres técnicas de poda forman el espacio de búsqueda: Poda de canales intermedios: los canales dentro de cada experto enrutado se clasifican según su contribución a la salida del experto. Todos los expertos dentro de una capa MoE se reducen a un tamaño uniforme para lograr compatibilidad con el kernel. Reducción de top-k: la cantidad de expertos a los que se enruta un token varía según la capa, hasta el k = 22 del padre. Poda de Mamba SSM: el tamaño del estado de SSM cae de 128 a 96 canales. Se mide el resultado del SSM. Bajar 128 canales a 96 acelera el kernel SSM de 1,2x a 1,3x durante la decodificación. Esto se mantiene en tamaños de lote entre 8 y 512. Los canales se clasificaron según su contribución estimada a la producción de la capa Mamba. La estimación promedió más de 67 millones de tokens de datos de validación. El Apéndice A muestra que esto supera la selección aleatoria de canales bajo una poda agresiva. La formulación original asume que los impactos en la calidad del reemplazo son aproximadamente aditivos. Cada bloque candidato se puntúa dentro del padre no modificado. Eso ignora las interacciones de orden superior entre reemplazos. Iterative Puzzle alterna la compresión limitada con una breve recuperación de destilación de conocimientos. Construye una secuencia M0, M1,… MR en lugar de saltar al objetivo. Las puntuaciones se vuelven a calcular con respecto al modelo comprimido actual, no al modelo original. Se utilizaron tres etapas: El Ministerio de Educación pondera el 75% de la capacidad docente, el estado de Mamba SSM el 75%. Curado por 24 mil millones de fichas. El Ministerio de Educación pondera el 60% de la capacidad docente. Curado por 43,2 mil millones de tokens. Se activó el presupuesto de expertos encaminado al 50%, asignado de forma heterogénea. Curado por 52,8 mil millones de tokens. https://arxiv.org/pdf/2607.04371 La tabla anterior compara esto con una línea base de Puzzle de un solo paso en el mismo objetivo. El procedimiento de tres pasos tiene un promedio de 69,05 en diez puntos de referencia, frente a 68,48. Las ganancias aparecen en MMLU-Pro, GPQA, HLE, AA-LCR, LiveCodeBench, SciCode y RULER-256K. IFBench-Instruction cayó 0,2 puntos y IFBench-Prompt cayó 0,5. Recuperación: destilación, RL y verbosidad La destilación de conocimientos se ejecutó con un 30 % de datos de preentrenamiento y un 70 % de datos SFT de Nemotron-3-Nano. Durante la fase de rompecabezas, KD utilizó una secuencia de 32K de longitud. Luego, Recovery entrenó a 128K y escaló a 512K. El presupuesto era de hasta 100 mil millones de tokens, con un lote global de 16 millones de tokens, en Megatron-LM. La capacitación posterior de RL adoptó la Etapa 2 del proceso Nemotron-3-Super RL, centrada en la ingeniería de software. La fase 2.1 realizó una comparación del uso de herramientas en un solo paso. La fase 2.2 pasó a la zona de pruebas RL de extremo a extremo, donde los agentes corren hasta 200 turnos. Ambas fases utilizaron una penalización de KL de 0. El equipo barrió las tasas de aprendizaje y luego promedió los pesos resultantes. https://arxiv.org/pdf/2607.04371 La Figura 4 anterior muestra lo que aportó cada etapa. KD de contexto corto recupera la mayoría de las categorías a más del 97% de Nemotron-3-Super. Luego, KD de contexto largo eleva específicamente los puntos de referencia de entrada larga y de generación larga. El equipo de investigación afirma que el impacto de RL en estos experimentos fue pequeño. La verbosidad es el detalle silencioso. Después de la última iteración de Puzzle, el modelo generó el 132% del recuento de tokens de Super. Eso cayó al 99% después del proceso de recuperación total. Implementación: cuantificación y predicción de tokens múltiples Se produjeron dos recetas de cuantificación posteriores al entrenamiento: FP8 W8A8 apunta a Hopper y NVFP4 W4A4 apunta a Blackwell. Componente Línea base BF16 Punto de control FP8 Punto de control NVFP4 GEMM MoE dispersos y compartidos BF16FP8NVFP4 Mamba GEMM BF16FP8FP8 Mamba Caché SSM FP32FP32FP16 + Caché SRKV FP8FP8FP8 Enrutador FP32FP32FP32 Atención QKV/salida, proyecciones latentes MoE, LM cabezaBF16BF16BF16 Ambas recetas se calibraron en 256 muestras SFT posteriores al entrenamiento. NVFP4 utilizó la calibración máxima, no la búsqueda de sensibilidad AutoQuantize utilizada para Super. El punto de control resultante se cuantifica de forma ligeramente más agresiva y se realiza de manera similar. NVFP4 no es compatible de forma nativa con Hopper. Todavía se utiliza para el objetivo H100 de contexto 1M, porque la capacidad de HBM se vincula allí. Puzzle-75B-A9B hereda un cabezal MTP compartido de Super. Los parámetros se comparten entre los pasos de MTP, por lo que un cabezal se aplica de forma recursiva en la inferencia. La transferencia directa de la cabeza entrenada de Super dio longitudes de aceptación similares. Luego, el equipo de investigación identifica una discrepancia entre el entrenamiento y la inferencia. El entrenamiento MTP forzado por el maestro alimenta la secuencia completa de estados ocultos desplazados. En cambio, la redacción autorregresiva alimenta una combinación de modelos de destino y estados ocultos generados por MTP. Las tasas de aceptación caen en posiciones de draft más profundas. Esto se soluciona mediante una formación continua de la cabeza transferida. En SPEED-Bench con una longitud de calado 7, la longitud media de aceptación aumentó de 3,45 a 4,34. Eso es aproximadamente entre el 25% y el 30%, concentrado en puestos posteriores del draft. A diferencia de Super, el punto de control NVFP4 apenas se degrada: 4,31 frente a 4,34. Dónde ayuda la compresión y dónde duele Benchmark (BF16)SuperPuzzle-75B-A9BDeltaMMLU-Pro83.882.4-1.4AIME25 (sin herramientas)92.289.7-2.5GPQA (sin herramientas)80.578.6-1.9LiveCodeBench82.181.1-1.0SciCode (subtarea)42.340.6-1.7SWE-Bench (OpenHands)59.556.9-2.6Arena-Hard-V272.868.6-4.2AA-LCR56.856.9+0.1REGLA 1M93.992.2-1.7MMLU-ProX79.577.5-2.0 El propio resumen del artículo de investigación es que el seguimiento de instrucciones y las evaluaciones agentes son las que más pierden. Arena-Hard-V2 es el peor de los casos, con -4,2 puntos. RULER se mantiene dentro de aproximadamente 1 a 2 puntos en 256K, 512K y 1M. Tres resultados de BF16 no retroceden. AA-LCR gana 0,1, Scale AI Multi-Challenge empata en 56,6 y TauBench Telecom gana 0,4. NVFP4 cuesta poco además de la compresión. En RULER 1M, el punto de control NVFP4 obtiene una puntuación de 93,2, por encima del 92,2 de BF16. HLE es el costo de NVFP4 más claro, cayendo de 16,5 a 15,7. Los resultados del 8PM se encuentran en el Apéndice E y siguen de cerca al BF16. SWE-Bench no está incluido en el punto de control del 8PM. Casos de uso RAG de contexto ultralargo en una GPU: un servicio de análisis de documentos en un contexto de 1 millón pasa de 1 solicitud simultánea a 8. El rendimiento de decodificación agregado en esa concurrencia es aproximadamente 4 veces mayor. Asistentes de codificación interactivos: en UT >= 100 tok/s en el régimen 8K/64K, un nodo sirve 2,03 veces los tokens. Ajustado por detalle, es decir, 2,16 veces las solicitudes completadas por minuto. Canalizaciones de documentos con gran cantidad de precarga: el régimen de 50.000/2.000 gana solo 1,60 veces. La compresión ayuda menos cuando el procesamiento rápido domina la computación. Bucles SWE agentes: verifique la brecha SWE-Bench de 2,6 puntos con su combinación de tareas. La recuperación de RL apuntó a esta capacidad y solo la restauró parcialmente. Explorador de implementación ‘+esc(r

Jul 11, 2026 Equipo de 7 minutos

Inteligencia artificial

Kyutai lanza MuScriptor: un transformador de descodificador de peso abierto únicamente para la transcripción de música multiinstrumento a MIDI

Jul 11, 2026 Equipo de 7 minutos

Zyphra presenta el paralelismo de secuencia y tensor (TSP): una estrategia de inferencia y entrenamiento basada en hardware que ofrece un rendimiento 2,6 veces mayor que las líneas base TP+SP coincidentes

ByEquipo de 7 minutos

El problema que TSP está resolviendo

Lo que realmente significa plegar

Resultados de memoria y rendimiento

Compensaciones prácticas que hay que entender

Conclusiones clave

By Equipo de 7 minutos

Related Post

Robbyant de Ant Group presenta LingBot-VA 2.0: un modelo de acción de vídeo causal creado de forma nativa para la IA física

Kyutai lanza MuScriptor: un transformador de descodificador de peso abierto únicamente para la transcripción de música multiinstrumento a MIDI

You missed

Wimbledon 2026 comenzó con un servicio de 148 mph: así es como el cerebro de los tenistas rastrea pelotas tan rápidas

‘Tácticas de la Gestapo’: ICE está matando a personas inocentes y tratando de encubrirlo

Pasajero de Ryanair fue parcialmente succionado por la ventana en un vuelo procedente de Grecia

El astuto truco matemático para resolver problemas sin responderlos