Hundimientos de atención para revelar: el papel funcional del enfoque de primera token en la estabilización de modelos de idiomas grandes
Los LLM a menudo muestran un comportamiento peculiar donde el primer token en una secuencia atrae una atención inusualmente alta, conocida como un “sumidero de atención”. A pesar de que…