Comprima texto semánticamente para ahorrar en costos de LLM | de Lou Kratz

Los LLM son geniales… si pueden adaptarse a todos sus datos

Foto por Cristóbal Burns en desempaquetar

Publicado originalmente en https://blog.developer.bazaarvoice.com el 28 de octubre de 2024.

Los modelos de lenguaje grandes son herramientas fantásticas para texto no estructurado, pero ¿qué pasa si su texto no cabe en la ventana contextual? Bazaarvoice enfrentó exactamente este desafío al crear nuestra función de resúmenes de reseñas de IA: millones de reseñas de usuarios simplemente no encajarán en la ventana contextual de LLM aún más nuevos e, incluso si lo hicieran, sería prohibitivamente costoso.

En esta publicación, comparto cómo Bazaarvoice abordó este problema comprimiendo el texto de entrada sin pérdida de semántica. Específicamente, utilizamos un enfoque de agrupamiento jerárquico de múltiples pasos que nos permite ajustar explícitamente el nivel de detalle que queremos perder a cambio de la compresión, independientemente del modelo de incorporación elegido. La técnica final hizo que nuestra función de resúmenes de revisión fuera financieramente factible y nos preparó para continuar escalando nuestro negocio en el futuro.

Bazaarvoice ha estado recopilando reseñas de productos generadas por usuarios durante casi 20 años, por lo que tenemos mucho de datos. Estas reseñas de productos no están estructuradas en absoluto y varían en extensión y contenido. Los modelos de lenguaje grandes son excelentes herramientas para texto no estructurado: pueden manejar datos no estructurados e identificar piezas de información relevantes entre los distractores.

Sin embargo, los LLM tienen sus limitaciones, y una de ellas es la ventana de contexto: cuántos tokens (aproximadamente la cantidad de palabras) se pueden colocar en la red a la vez. Los modelos de lenguajes grandes de última generación, como la versión 3 de Claude de Athropic, tienen ventanas de contexto extremadamente grandes de hasta 200.000 tokens. Esto significa que puedes incluir pequeñas novelas en ellos, pero Internet sigue siendo una colección de datos enorme y en constante crecimiento, y nuestras reseñas de productos generadas por los usuarios no son diferentes.

Alcanzamos el límite de la ventana de contexto mientras construíamos nuestra función Resúmenes de reseñas que resume todas las reseñas de un producto específico en el sitio web de nuestros clientes. Sin embargo, durante los últimos 20 años, muchos productos han obtenido miles de reseñas que rápidamente sobrecargaron la ventana de contexto de LLM. De hecho, incluso tenemos productos con millones de revisiones que requerirían una inmensa reingeniería de los LLM para poder procesarlos de una sola vez.

Incluso si fuera técnicamente viable, los costes serían bastante prohibitivos. Todos los proveedores de LLM cobran según la cantidad de tokens de entrada y salida. A medida que nos acercamos a los límites de la ventana de contexto para cada producto, de los cuales tenemos millones, podemos acumular rápidamente facturas de alojamiento en la nube de más de seis cifras.

Para enviar resúmenes de reseñas a pesar de estas limitaciones técnicas y financieras, nos centramos en una visión bastante simple de nuestros datos: muchas reseñas dicen lo mismo. De hecho, toda la idea de un resumen se basa en esto: los resúmenes de reseñas capturan las ideas, los temas y los sentimientos recurrentes de los revisores. Nos dimos cuenta de que podemos aprovechar esta duplicación de datos para reducir la cantidad de texto que necesitamos enviar al LLM, evitando que alcancemos el límite de la ventana de contexto. y reduciendo el costo operativo de nuestro sistema.

Para lograrlo, necesitábamos identificar segmentos de texto que dijeran lo mismo. Esta tarea es más fácil de decir que de hacer: a menudo las personas usan diferentes palabras o frases para expresar la misma cosa.

Afortunadamente, la tarea de identificar si un texto es semánticamente similar ha sido un área activa de investigación en el campo del procesamiento del lenguaje natural. El trabajo de Agirre et. Alabama. 2013 (Tarea compartida SEM 2013: Similitud textual semántica. En Segunda Conferencia Conjunta sobre Semántica Léxica y Computacional) incluso publicó datos etiquetados por humanos de oraciones semánticamente similares conocidos como STS Benchmark. En él, piden a los humanos que indiquen si las oraciones textuales son semánticamente similares o diferentes en una escala del 1 al 5, como se ilustra en la siguiente tabla (de Cer et. al., SemEval-2017 Tarea 1: Evaluación enfocada multilingüe y translingüe de similitud textual semántica):

El conjunto de datos STSBenchmark se utiliza a menudo para evaluar qué tan bien un modelo de incrustación de texto puede asociar oraciones semánticamente similares en su espacio de alta dimensión. Específicamente, la correlación de Pearson se utiliza para medir qué tan bien el modelo de integración representa los juicios humanos.

Por lo tanto, podemos utilizar dicho modelo de incorporación para identificar frases semánticamente similares de reseñas de productos y luego eliminar frases repetidas antes de enviarlas al LLM.

Nuestro enfoque es el siguiente:

Primero, las reseñas de productos se segmentan en oraciones.
Se calcula un vector de incrustación para cada oración utilizando una red que funciona bien en el punto de referencia STS.
La agrupación aglomerativa se utiliza en todos los vectores de incrustación para cada producto.
Se retiene una oración de ejemplo, la más cercana al centroide del grupo, de cada grupo para enviarla al LLM, y se eliminan otras oraciones dentro de cada grupo.
Cualquier grupo pequeño se considera atípico y se toma una muestra aleatoria para su inclusión en el LLM.
La cantidad de oraciones que representa cada grupo se incluye en el mensaje LLM para garantizar que se considere el peso de cada sentimiento.

Esto puede parecer sencillo cuando se escribe en una lista con viñetas, pero había algunos problemas en los detalles que teníamos que resolver antes de poder confiar en este enfoque.

Primero, teníamos que asegurarnos de que el modelo utilizaba texto efectivamente incrustado en un espacio donde las oraciones semánticamente similares están cerca y las semánticamente diferentes están lejos. Para hacer esto, simplemente utilizamos el conjunto de datos de referencia STS y calculamos la correlación de Pearson para los modelos que deseábamos considerar. Utilizamos AWS como proveedor de nube, por lo que, naturalmente, queríamos evaluar su Incrustación de texto titán modelos.

A continuación se muestra una tabla que muestra la correlación de Pearson en el STS Benchmark para diferentes modelos de Titan Embedding:

Comprima texto semánticamente para ahorrar en costos de LLM | de Lou Kratz | diciembre de 2024

ByEquipo de 7 minutos

Los LLM son geniales… si pueden adaptarse a todos sus datos

By Equipo de 7 minutos

Related Post

Las consecuencias de depender de la IA para obtener noticias precisas | Noticias del MIT

Uso de Scikit-LLM con LLM de código abierto

Gemini 3.5 Live Translate ya está aquí

You missed

Las consecuencias de depender de la IA para obtener noticias precisas | Noticias del MIT

Estos vientos récord de agujeros negros podrían crear un huracán de categoría 79 en la Tierra

‘No voy a jugar’: Jasmine Crockett critica la farsa de derechos civiles del Partido Republicano

Tribunal francés absuelve a Jeremstar tras protesta taurina