MoonMath AI abre un núcleo de atención HIP para AMD MI300X que supera a AITER v3 en todas las formas y modos de redondeo

El equipo de MoonMath AI ha lanzado un kernel de atención directa bf16 para la GPU MI300X de AMD. Está escrito en HIP, no en ensamblaje escrito a mano. El código es de código abierto bajo la licencia MIT. El equipo de MoonMath.ai informa que supera a AITER v3, el núcleo optimizado de AMD, en todas las formas probadas. El acceso bare-metal provino de HotAisle, un proveedor de nube de AMD.

La atención es la operación fusionada softmax(QKᵀ/√d)·V dentro de cada transformador. El MI300X es la GPU para centros de datos CDNA3 de AMD, con objetivo ISA (gfx942). Este kernel se ejecuta únicamente en ese hardware.

TL;DR

MoonMath.ai ofrece un núcleo de atención directa bf16 de código abierto para AMD MI300X, escrito en HIP, no en ensamblador (MIT). Supera al AITER v3 de AMD en todas las formas y modos de redondeo: media geométrica 1,18×/1,15×/1,08×, hasta 1,26×. El truco principal: los envoltorios ASM de una instrucción le permiten elegir el código de operación mientras el compilador asigna los registros. La mayor parte de la aceleración se debe a la ubicación de la memoria: K en LDS, V hot en L1, Q y acumuladores en los registros. Un PR real de SGLang lo utilizó para acelerar la difusión de vídeo Wan2.1 en 1,23×, sin regresión de calidad.

Entendiendo el núcleo

Un kernel es un pequeño programa que se ejecuta directamente en los numerosos núcleos de la GPU para realizar un cálculo específico (en este caso, las matemáticas de atención) tan rápido como lo permita el hardware. El kernel calcula la atención directa en bf16 solo en MI300X. Toma entradas en formato BSHD o BHSD, sin transposición. La dimensión de la cabeza está fijada en 128. Admite cualquier longitud de secuencia, incluida la atención cruzada.

Hay límites reales. No existe una máscara causal, ni GQA, ni lotes varlen. Las salidas son bf16 y se ejecuta exclusivamente en hardware gfx942.

Los números están estrictamente controlados. Los tres modos de redondeo coinciden con la regla de redondeo por modo de AITER. Cada producción finita se encuentra dentro de 1 bf16 ULP de AITER. El manejo de NaN e Inf es idéntico en bits y los resultados son deterministas.

El truco principal: envoltorios de ensamblaje de una sola instrucción

La técnica central evita un dilema familiar. Los intrínsecos del compilador mantienen el código ordenado pero permiten que el compilador reordene o cambie el nombre de los operandos. El ensamblaje en línea sin formato proporciona control pero obliga a la gestión manual de registros y direcciones.

MoonMath envuelve exactamente una instrucción en una función __device__ __forceinline__. Las restricciones de ASM extendidas describen los operandos. El equipo de investigación elige el código de operación. El compilador aún asigna registros y rastrea el flujo de datos.

// entrada/salida ligada al MISMO VGPR → sin cambio de nombre del acumulador, sin copia de v_mov. __device__ __forceinline__ void asm_mfma(bf16x4_t a, bf16x4_t b, fp32x4_t& c) { asm volatile(“v_mfma_f32_16x16x16_bf16 %0, %1, %2, %0” : “+v”(c): “v”(a), “v”(b)); }

La restricción “+v”(c) vincula la entrada y salida del acumulador al mismo VGPR. No se emite ninguna instrucción de copia. Esto mantiene el kernel cerca del HIP normal. Todavía dirige la máquina una instrucción a la vez.

La arquitectura: ocho olas, dos grupos, dos barreras

Una unidad de cómputo CDNA3 tiene cuatro unidades SIMD. El bloque de libros de texto es de cuatro ondas. En cambio, MoonMath ejecuta ocho ondas por bloque, en dos grupos de cuatro.

Los dos grupos ejecutan la misma secuencia Q*K, softmax, O += P*V. Están compensados por una fase. Mientras un grupo satura el núcleo de la matriz, el otro ejecuta softmax y emite cargas. Luego se intercambian, por lo que el núcleo de la matriz nunca queda inactivo.

Hay dos s_barriers por iteración. Uno se sienta en el traspaso de fase. Uno se sitúa en el límite de la iteración. Las esperas por contador se encargan del resto de la sincronización.

Esto se hace eco de la alternancia matmul y softmax de FlashAttention-3. No copia la división warp de productor y consumidor de FA3. En CDNA3, cada movimiento de memoria ya es asíncrono, por lo que no es necesaria una onda de productor dedicada.

Dónde viven los datos y por qué 16×16×16

La mayor parte de la aceleración proviene de la ubicación de la memoria. K fluye desde HBM a LDS, con doble buffer, compartido por las ocho ondas. V permanece caliente en L1, lea en cada matmul PV. Q y acumuladores viven en registros.

El equipo de investigación eligió el MFMA de 16×16×16 en lugar de 32×32×8. Ambas formas tienen un rendimiento idéntico. El mosaico más pequeño se acumula en 4 elementos fp32 por carril, frente a 16. La menor presión del acumulador deja espacio para una captación previa más profunda y un tercer mosaico Q.

DecisiónElecciónRazónOndas por bloque8 (dos grupos de 4)Planifique el oleoducto directamente; comparta una copia KForma MFMA16×16×16 bf16Mismo rendimiento, menor presión VGPR, mejor eficiencia energéticaUbicación KLDS, doble buffer, 32 KiBCompartido por las 8 ondas, intercambiado por iteraciónUbicación VL1, residente, captado previamenteReleído en PV, mantenido caliente deliberadamenteAcumuladores Q+VGPRLeer cada iteración, nunca recargado

Dos victorias posteriores cierran la brecha. Un tercer mosaico Q (3Q) aumenta la reutilización de datos por mosaico K y V cargado. Una división KV de cola estilo Flash-Decoding rescata la ronda fraccionaria varada en las 304 CU del MI300X. Estas victorias se suceden en cascada. Mover V a L1 liberó el LDS que luego llena el tercer mosaico Q.

Punto de referencia

Las pruebas se realizaron en MI300X en bf16, dimensión de cabeza 128. Cada forma se midió en tres modos de redondeo. RTNE redondea al par más cercano. RTNA redondea al más cercano, se aleja de cero. RTZ se trunca hacia cero.

Forma (B, H, S, D)RondaNuestra (ms)AITER v3 (ms)vs AITERvs MAX(2, 24, 8192, 128)RTNE3.0833.7921.23×1.37×(2, 24, 16384, 128)RTNE11.67014.6911.26×1.54×(4, 16, 16384, 128)RTZ15.05516.1831.07×1.47×(2, 24, 32768, 128)RTNA44.44052.3631.18×1.57×(1, 16, 131072, 128)RTNE232.517269.2781.16×1.46×

Las geomedias a lo largo del barrido favorecen MoonMath. Frente a AITER, obtiene una puntuación de 1,18 × (RTNE), 1,15 × (RTNA) y 1,08 × (RTZ). En comparación con Modular MAX, las geomedias van de 1,44× a 1,49× y las aceleraciones por forma alcanzan 1,59×.

RTZ es el modo más rápido de AITER y la carrera más reñida. La forma RTZ (4, 16, 16384) pasó de 0,95× a 1,07×. La división KV de la cola es lo que cerró esa brecha final.

Explicador interactivo

B a través de las columnas de dos fases. var fase=0, iter=”N”, jugando=falso, temporizador=null, spd=950; // [phase1 cell, phase2 cell] para cada carril, el contenido es fijo var CELLS={ a:[{c:’mc’,t:’PV · QK’,tag:’matrix core’},{c:’mem’,t:’softmax · V→L1′,tag:’memory’}]b:[{c:’mem’,t:’K→LDS · softmax’,tag:’memory’},{c:’mc’,t:’PV · QK’,tag:’matrix core’}]t:[{t:’K: HBM→LDS’},{t:’V prefetch→L1′}] }; función setSlot(id,cell){var el=$(‘#’+id);el.className=”rol de ranura “+cell.c;el.innerHTML=”+cell.t+’‘+etiqueta.celda+’‘;} función paintStatic(){ setSlot(‘a0’,CELLS.a[0]);setSlot(‘a1’,CÉLULAS.a[1]); setSlot(‘b0’, CÉLULAS.b[0]);setSlot(‘b1’,CÉLULAS.b[1]); $(‘#t0’).innerHTML=CELDAS.t[0].t;$(‘#t1’).innerHTML=CELLS.t[1].t; } función paintPipe(){ // fase 0 -> col0 activa (a0,b0,t0); fase 1 -> col1 activa (a1,b1,t1) var act=fase, tenue=fase^1; [[‘a0′,’a1’],[‘b0′,’b1’]].forEach(función(par){ $(‘#’+par[act]).classList.remove(‘dim’);$(‘#’+par[act]).classList.add(‘activo’); $(‘#’+par[dim]).classList.add(‘dim’);$(‘#’+par[dim]).classList.remove(‘activo’); }); [‘t0′,’t1’].forEach(function(id,i){$(‘#’+id).className=”seg2″+(i===act?’ flow’:’ dim’);}); $(‘#ph1′).className=”ph”+(phase===0?’ cur’:”); $(‘#ph2′).className=”ph”+(phase===1?’ cur’:”); $(‘#mm-iter’).textContent=”iteración “+iter+’ · fase ‘+(fase+1)+(fase===0?’ — Grupo A en el núcleo de la matriz’:’ — Grupo B en el núcleo de la matriz’); } función adv(){ fase++; if(fase>1){fase=0;iter=(iter===’N’)?’N+1′:(iter===’N+1′?’N+2′:’N’);} paintPipe(); } $(‘#mm-step’).addEventListener(‘click’,function(){stop();adv();}); function play(){playing=true;$(‘#mm-play’).innerHTML=’❚❚ Pausa’;$(‘#mm-play’).classList.remove(‘primary’); timer=setInterval(adv,spd);} function stop(){playing=false;$(‘#mm-play’).innerHTML=’► Play’;$(‘#mm-play’).classList.add(‘primary’); if(timer){clearInterval(timer);timer=null;}} $(‘#mm-play’).addEventListener(‘click’,function(){playing?stop():play();}); $(‘#mm-spd’).addEventListener(‘input’,function(){spd=1950-(+this.value);if(playing){stop();play();}}); pinturaEstática();pinturaPipe(); /* —- mapa de memoria —- */ var MEM={ q:{t:’Mosaico Q — VGPR, persistente’,b:’El mosaico Q se lee en cada iteración y nunca se vuelve a cargar, por lo que permanece residente en el archivo de registro vectorial. Dos de los tres mosaicos Q por onda permanecen residentes en el registro y activos.’}, acc:{t:’scores · O — acumuladores fp32 en VGPR’,b:’Las salidas del núcleo de la matriz (la matriz de puntuación y la salida en ejecución) nunca abandonan los registros hasta el almacenamiento final. El MFMA de 16×16×16 se acumula en solo 4 elementos fp32 por carril, lo que mantiene baja la presión del acumulador.’}, k:{t:’K mosaico — LDS, doble buffer, 32 KiB’,b:’Una copia de K es compartida por las ocho ondas y se intercambia por iteración a través de un doble buffer. K fluye desde HBM directamente a LDS mediante DMA directo, sin pasar nunca por un VGPR. Un swizzle XOR rompe los conflictos bancarios con relleno cero.’}, q3:{t:’3er mosaico Q – LDS, 32 KiB, transmitido’,b:’Mover V a L1 liberó 32 KiB de LDS. El núcleo lo gasta en una tercera ficha Q (48 filas q por ola). Se estaciona en LDS y se transmite a través de un buffer de ping-pong durante el matmul QK, lo que aumenta la reutilización de K/V.’}, v:{t:’V_t mosaico — L1, residente’,b:’El mosaico V pretranspuesto se mantiene caliente en L1 y se vuelve a leer en cada matmul PV. L1 no es direccionable, por lo que la residencia se diseña precargando las líneas de la siguiente iteración en un registro descartable: los datos llegan a L1 como efecto secundario.’}, src:{t:’Fuente K / V – HBM, organizado a través de L2′,b:’Un chiplet de cabeza primero mapea todos los bloques Q (lote, cabeza) en un único XCD, por lo que sus K y V permanece residente en ese segmento de L2 de XCD en lugar de atravesar los ocho.’} }; function showMem(k){ $all(‘.chip’).forEach(function(c){c.setAttribute(‘aria-pressed’, c.getAttribute(‘data-k’)===k ? ‘true’:’false’);}); $(‘#mm-detalle .dt’).textContent=MEM[k].t; $(‘#mm-detalle .db’).textContent=MEM[k].b; altura del informe(); } $all(‘.chip’).forEach(function(c){c.addEventListener(‘click’,function(){showMem(c.getAttribute(‘data-k’));});}); /* —- init —- */ drawBench();showMem(‘q’); /* —- cambio de tamaño automático para inserción de WordPress —- */ function reportHeight(){ var h=root.offsetHeight+40; if(window.parent){window.parent.postMessage({tipo:’mm-cdna3-height’,height:h},’*’);} } window.addEventListener(‘load’,reportHeight); window.addEventListener(‘resize’,reportHeight); setTimeout (altura del informe, 300); setTimeout (altura del informe, 900); })();

MoonMath AI abre un núcleo de atención HIP para AMD MI300X que supera a AITER v3 en todas las formas y modos de redondeo

ByEquipo de 7 minutos

TL;DR

Entendiendo el núcleo

El truco principal: envoltorios de ensamblaje de una sola instrucción

La arquitectura: ocho olas, dos grupos, dos barreras

Dónde viven los datos y por qué 16×16×16

Punto de referencia

Explicador interactivo

By Equipo de 7 minutos

Related Post

Cómo diseñar paneles interactivos basados en Python con componentes de interfaz de usuario reactivos prefabricados y exportación de HTML estático

Nace VibeCoding.cat, la academia que quiere enseñar a crear apps con inteligencia artificial incluso a quienes no saben programar

Crawlee para Python: cree un canal de rastreo web con manejo de robots, gráficos de enlaces y exportación de fragmentos RAG

You missed

JWST detecta impostores cósmicos que falsifican galaxias lejanas

SENTENCIA CASO ÁBALOS

Mueren dos hombres en ahogamientos separados en Pilar de la Horadada y Torrevieja – El Dirigente

Día Mundial de la Música 2026: canciones de BTS que merecen un lugar en tu lista de reproducción