Cómo acelerar el entrenamiento de transformadores usando NVIDIA Apex (FusedAdam, FusedLayerNorm) y Native torch.amp
print(“\n### SECCIÓN D: Transformador de extremo a extremo (vanilla fp32 vs Apex fusionado + AMP) ###”) VOCAB, D, NHEAD, LAYERS, SEQ, BATCH, STEPS = 2000, 256, 4, 4, 128, 32,…