Cómo construir transformadores con memoria eficiente con xFormers usando secuencias empaquetadas, GQA, ALiBi, SwiGLU y atención causal
print(“\n” + “=”*70 + “\n4. Lote empaquetado de longitud variable, sin desperdicio de relleno\n” + “=”*70) seqlens = total = suma(seqlens) H, K = 8, 64 q = torch.randn(1, total,…