StreamTensor: un compilador de pytorch-to accelerator que transmite intermedios LLM a través de flujos de datos FPGA
¿Por qué tratar la inferencia de LLM como núcleos por lotes para DRAM cuando un compilador de flujo de datos puede encender mosaicos a través de FIFOS y convertidores de…