Parallax: una atención lineal local parametrizada que mantiene Softmax y agrega una rama de corrección de covarianza aprendida
El mecanismo de atención de Transformer apenas ha cambiado desde 2017. La mayor parte del trabajo de eficiencia ha intentado reemplazar directamente la atención de softmax. Un nuevo periódico toma…