Tag: H100

FlashSigmoid: una implementación de atención sigmoidea que reconoce el hardware y hace un uso eficiente de la memoria y que produce un aumento de la velocidad del núcleo de inferencia del 17 % en comparación con FlashAttention-2 en GPU H100

Los modelos de lenguaje grandes (LLM) han ganado una importancia significativa en el aprendizaje automático moderno, en gran medida debido al mecanismo de atención. Este mecanismo emplea un mapeo de…