Investigadores de la Universidad de Fudan presentan a Lorsa: un mecanismo de atención escaso que recupera las unidades de atención atómica ocultas en la superposición del transformador
Los modelos de lenguaje grande (LLM) han ganado una atención significativa en los últimos años, pero comprender sus mecanismos internos sigue siendo desafiante. Al examinar los cabezales de atención individuales…