Compresión rápida para la optimización de la generación de LLM y la reducción de costos

En este artículo, aprenderá cinco técnicas prácticas de compresión de mensajes que reducen los tokens y aceleran la generación de modelos de lenguaje grande (LLM) sin sacrificar la calidad de la tarea.

Los temas que cubriremos incluyen:

Qué es el resumen semántico y cuándo usarlo. Cómo se estructuran las indicaciones, el filtrado de relevancia y las referencias a instrucciones. Dónde encaja la abstracción de plantilla y cómo aplicarla de manera consistente.

Exploremos estas técnicas.

Compresión rápida para la optimización de la generación de LLM y la reducción de costos
Imagen del editor

Introducción

Los modelos de lenguaje grande (LLM) están entrenados principalmente para generar respuestas de texto a consultas o indicaciones de los usuarios, con un razonamiento complejo que no solo implica la generación del lenguaje al predecir cada token siguiente en la secuencia de salida, sino que también implica una comprensión profunda de los patrones lingüísticos que rodean el texto ingresado por el usuario.

Las técnicas de compresión de mensajes son un tema de investigación que últimamente ha ganado atención en todo el panorama de LLM, debido a la necesidad de aliviar la inferencia lenta y que requiere mucho tiempo causada por mensajes de usuario y ventanas de contexto más grandes. Estas técnicas están diseñadas para ayudar a disminuir el uso de tokens, acelerar la generación de tokens y reducir los costos computacionales generales mientras se mantiene la calidad del resultado de la tarea tanto como sea posible.

Este artículo presenta y describe cinco técnicas de compresión de mensajes comúnmente utilizadas para acelerar la generación de LLM en escenarios desafiantes.

1. Resumen semántico

El resumen semántico es una técnica que condensa contenido extenso o repetitivo en una versión más concisa conservando su semántica esencial. En lugar de alimentar de forma iterativa toda la conversación o los documentos de texto al modelo, se pasa un resumen que contiene sólo lo esencial. El resultado: la cantidad de tokens de entrada que el modelo tiene que “leer” se reduce, lo que acelera el proceso de generación del siguiente token y reduce el costo sin perder información clave.

Supongamos un contexto de aviso largo que consta de actas de reunión, como “En la reunión de ayer, Iván revisó los números trimestrales…”, resumiendo hasta cinco párrafos. Después del resumen semántico, el contexto abreviado puede verse así: “Resumen: Iván revisó las cifras trimestrales, destacó una caída de las ventas en el cuarto trimestre y propuso medidas de ahorro de costos”.

2. Solicitud estructurada (JSON)

Esta técnica se centra en expresar fragmentos de información de texto largos y fluidos en formatos compactos y semiestructurados como JSON (es decir, pares clave-valor) o una lista de viñetas. Los formatos de destino utilizados para las indicaciones estructuradas suelen implicar una reducción en el número de tokens. Esto ayuda al modelo a interpretar las instrucciones del usuario de manera más confiable y, en consecuencia, mejora la coherencia del modelo y reduce la ambigüedad al mismo tiempo que reduce las indicaciones a lo largo del camino.

Los algoritmos de indicaciones estructuradas pueden transformar indicaciones sin formato con instrucciones como Proporcione una comparación detallada entre el Producto X y el Producto Y, centrándose en el precio, las características del producto y las calificaciones de los clientes en una forma estructurada como: {tarea: “comparar”, artículos: [“Product X”, “Product Y”]criterios: [“price”, “features”, “ratings”]}

3. Filtrado de relevancia

El filtrado de relevancia aplica el principio de “centrarse en lo que realmente importa”: mide la relevancia en partes del texto e incorpora en el mensaje final sólo las piezas de contexto que son verdaderamente relevantes para la tarea en cuestión. En lugar de deshacerse de piezas enteras de información, como documentos que forman parte del contexto, sólo se conservan pequeños subconjuntos de la información más relacionada con la solicitud de destino. Esta es otra forma de reducir drásticamente el tamaño del mensaje y ayudar al modelo a comportarse mejor en términos de enfoque y mayor precisión de predicción (recuerde, la generación de tokens LLM es, en esencia, una tarea de predicción de la siguiente palabra que se repite muchas veces).

Tomemos, por ejemplo, un manual de producto completo de 10 páginas para un teléfono celular que se agrega como archivo adjunto (contexto rápido). Después de aplicar el filtrado de relevancia, solo se conservan un par de secciones breves relevantes sobre “duración de la batería” y “proceso de carga” porque se le preguntó al usuario sobre las implicaciones de seguridad al cargar el dispositivo.

4. Referencia de instrucciones

Muchas indicaciones repiten el mismo tipo de instrucciones una y otra vez, por ejemplo, “adopta este tono”, “responde en este formato” o “usa oraciones concisas”, por nombrar algunas. La referencia de instrucciones crea una referencia para cada instrucción común (que consta de un conjunto de tokens), registra cada una solo una vez y la reutiliza como un único identificador de token. Siempre que en mensajes futuros se mencione una “solicitud común” registrada, se utiliza ese identificador. Además de acortar las indicaciones, esta estrategia también ayuda a mantener un comportamiento de tarea consistente a lo largo del tiempo.

Un conjunto combinado de instrucciones como “Escribe en un tono amigable. Evita la jerga. Mantén las oraciones concisas. Proporciona ejemplos”. podría simplificarse como “Usar la Guía de estilo X”. y luego reutilizarse cuando se especifiquen nuevamente las instrucciones equivalentes.

5. Abstracción de plantillas

Algunos patrones o instrucciones suelen aparecer en las indicaciones, por ejemplo, estructuras de informes, formatos de evaluación o procedimientos paso a paso. La abstracción de plantillas aplica un principio similar a la referencia de instrucciones, pero se centra en la forma y el formato que deben tener los resultados generados, encapsulando esos patrones comunes bajo un nombre de plantilla. Luego se utilizan las referencias de plantillas y el LLM hace el trabajo de completar el resto de la información. Esto no sólo contribuye a mantener las indicaciones más claras, sino que también reduce drásticamente la presencia de tokens repetidos.

Después de la abstracción de la plantilla, un mensaje puede convertirse en algo como “Producir un análisis competitivo utilizando la plantilla AB-3”. donde AB-3 es una lista de secciones de contenido solicitadas para el análisis, estando cada una claramente definida. Algo como:

Elaborar un análisis competitivo con cuatro secciones:

Descripción general del mercado (2 a 3 párrafos que resumen las tendencias de la industria) Desglose de los competidores (tabla que compara al menos 5 competidores) Fortalezas y debilidades (viñetas) Recomendaciones estratégicas (3 pasos viables).

Concluyendo

Este artículo presenta y describe cinco formas comúnmente utilizadas para acelerar la generación de LLM en escenarios desafiantes comprimiendo las indicaciones del usuario, centrándose a menudo en la parte del contexto, que suele ser la causa principal de las “indicaciones sobrecargadas” que hacen que los LLM se ralenticen.

Compresión rápida para la optimización de la generación de LLM y la reducción de costos

ByEquipo de 7 minutos

Introducción

1. Resumen semántico

2. Solicitud estructurada (JSON)

3. Filtrado de relevancia

4. Referencia de instrucciones

5. Abstracción de plantillas

Concluyendo

By Equipo de 7 minutos

Related Post

Construido de adentro hacia afuera: cómo los servicios profesionales de AWS se convirtieron por primera vez en un equipo de vanguardia

Moonshot AI lanza Kimi Work, un agente de escritorio local que, según se informa, se ejecuta en Kimi K2.6 con un enjambre de agentes de 300 subagentes

IA física: qué es y qué no es

You missed

Construido de adentro hacia afuera: cómo los servicios profesionales de AWS se convirtieron por primera vez en un equipo de vanguardia

Una pizca de escandio mantiene el crecimiento de los bosques de nanotubos de carbono donde solo el hierro se quema

La compañía de AI Chatbot genera un llamamiento sobre salvaguardias

Qué hay en Mallorca, del 12 al 18 de junio