MiniMax Sparse Attention (MSA): una atención dispersa en bloques de dos ramas entrenada en un MoE de parámetros 109B con un presupuesto de 3T tokens
MiniMax lanzó MSA (MiniMax Sparse Attention), un método de atención dispersa creado directamente en Grouped Query Attention (GQA). Apunta a un cuello de botella: el costo cuadrático de la atención…