LLMOps
La arquitectura transformadora es posiblemente una de las innovaciones más impactantes en el aprendizaje profundo moderno. Propuesto en el famoso Artículo de 2017 “La atención es todo lo que necesitas”, se ha convertido en el enfoque de referencia para la mayoría de los modelos relacionados con el lenguaje, incluidos todos los modelos de lenguajes grandes (LLM), como el familia GPTasí como muchas tareas de visión por computadora.
A medida que crecen la complejidad y el tamaño de estos modelos, también crece la necesidad de optimizar su velocidad de inferencia, especialmente en aplicaciones de chat donde los usuarios esperan respuestas inmediatas. El almacenamiento en caché de valores clave (KV) es un truco inteligente para hacer precisamente eso: veamos cómo funciona y cuándo usarlo.
Antes de sumergirnos en el almacenamiento en caché de KV, necesitaremos hacer un breve desvío hacia el mecanismo de atención utilizado en los transformadores. Es necesario comprender cómo funciona para detectar y apreciar cómo el almacenamiento en caché de KV optimiza la inferencia del transformador.
Nos centraremos en los modelos autorregresivos utilizados para generar texto. Estos llamados modelos de decodificadores incluyen el familia GPT, Géminis, claudioo Copiloto de GitHub. Están capacitados para una tarea simple: predecir el siguiente token en secuencia. Durante la inferencia, el modelo recibe algo de texto y su tarea es…