Tag: GPU

FlashSigmoid: una implementación de atención sigmoidea que reconoce el hardware y hace un uso eficiente de la memoria y que produce un aumento de la velocidad del núcleo de inferencia del 17 % en comparación con FlashAttention-2 en GPU H100

Los modelos de lenguaje grandes (LLM) han ganado una importancia significativa en el aprendizaje automático moderno, en gran medida debido al mecanismo de atención. Este mecanismo emplea un mapeo de…

LinkedIn lanzó el kernel Liger (Linkedin GPU Efficient Runtime): una herramienta revolucionaria que aumenta la eficiencia del entrenamiento LLM en más del 20 % y reduce el uso de memoria en un 60 %

LinkedIn ha presentado recientemente su revolucionaria innovación: la Kernel Liger (tiempo de ejecución eficiente de GPU de LinkedIn)una colección de núcleos Triton altamente eficientes diseñados específicamente para el entrenamiento de…