Zyphra presenta el paralelismo de secuencia y tensor (TSP): una estrategia de inferencia y entrenamiento basada en hardware que ofrece un rendimiento 2,6 veces mayor que las líneas base TP+SP coincidentes
Entrenar y servir modelos de transformadores grandes a escala es fundamentalmente un problema de gestión de memoria. Cada GPU en un clúster tiene una cantidad fija de VRAM y, a…