1kfxjzqhujvsbmqhsbaihea.jpeg
Foto por Josué Sortino en desempaquetar

¿Qué pasaría si le dijera que podría ahorrar un 60% o más del costo de su gasto en LLM API sin comprometer la precisión? Sorprendentemente, ahora puedes hacerlo.

Los modelos de lenguaje grandes (LLM) ahora son parte de nuestra vida cotidiana. Las empresas utilizan la tecnología para automatizar procesos, mejorar las experiencias de los clientes, crear mejores productos, ahorrar dinero y más.

Organizar sus propios LLM es un gran desafío. Ofrecen amplias capacidades pero su funcionamiento suele ser costoso. A menudo requieren una infraestructura compleja y cantidades masivas de datos. El costo y la complejidad son las razones por las que se utiliza la ingeniería rápida. Incluso puedes utilizar la generación de recuperación aumentada (RAG) para mejorar el contexto y reducir las alucinaciones. Con ambas técnicas, descarga los LLM en ejecución a empresas como OpenAI, Cohere o Google. Sin embargo, ampliar la adopción de LLM a nuevos casos de uso, especialmente con los últimos modelos potentes, puede generar un nuevo costo que antes no se contabilizaba. Los modelos más débiles pueden ser más baratos, pero ¿puede confiarles preguntas complejas? Ahora, una nueva investigación nos muestra cómo ahorrar dinero y obtener resultados de LLM tan buenos, a veces mejores.

Conozca las cascadas LLM

En la búsqueda de costos más bajos de LLM, los investigadores recurrieron al concepto de LLM Cascades. En la edad oscura, antes del lanzamiento de ChatGPT, un equipo de Google y la Universidad de Toronto definió este término como programas que utilizan cálculos de probabilidad para obtener los mejores resultados utilizando múltiples LLM.

Más recientemente, el Papel FrugalGPT Las cascadas se definieron como el envío de una consulta de usuario a una lista de LLM, uno tras otro, de LLM más débiles a más fuertes, hasta que la respuesta sea lo suficientemente buena. FrugalGPT Cascades utiliza un modelo dedicado para determinar cuándo la respuesta es lo suficientemente buena según un umbral de calidad.

Un artículo reciente titulado ‘Grandes cascadas de modelos de lenguaje con una combinación de representaciones de pensamiento para un razonamiento rentable’ de la Universidad George Mason, Microsoft y Virginia Tech ofrece una alternativa: una función que puede determinar si la respuesta es lo suficientemente buena sin necesidad de ajustar otro modelo.

Mezcla de cascadas de pensamiento LLM

En lugar de utilizar varios LLM, el razonamiento de ‘Mezcla de pensamiento’ (MoT) utiliza solo dos: GPT 3.5 Turbo y GPT 4. El primer modelo se considera el LLM «más débil», mientras que el segundo es el LLM «fuerte». Los autores aprovecharon la «consistencia de las respuestas» del LLM para señalar si la respuesta de un LLM es lo suficientemente buena. Los LLM producen respuestas consistentes a preguntas similares cuando están seguros de que las respuestas son correctas. Por lo tanto, cuando las respuestas de LLM más débiles son consistentes, no es necesario llamar al LLM más fuerte. Por el contrario, estos LLM producen respuestas inconsistentes cuando carecen de confianza. Ahí es cuando necesita un LLM más sólido para responder la pregunta. (Nota: también puede utilizar un par LLM más débil/más fuerte de su elección).

Las indicaciones en sí utilizan indicaciones contextuales breves para mejorar la calidad de las respuestas del LLM. Estas indicaciones guían la respuesta del LLM al dar ejemplos de preguntas y respuestas similares.

Para mejorar el razonamiento del modelo y simplificar la medición de la coherencia, los investigadores introducen una nueva técnica de estimulación para tareas de razonamiento «mezclando» dos técnicas de estimulación:

  • Cadena de pensamiento (CoT) Las indicaciones alientan a los LLM a generar pasos o razonamientos intermedios antes de llegar a una respuesta final. Generar estos pasos ayuda al modelo a mejorar los resultados de tareas complicadas. También aumenta la precisión de las respuestas.
  • Programa de pensamiento (PoT) amplía las indicaciones de la Cadena de pensamiento y utiliza la salida del modelo como una nueva entrada para más indicaciones. Las indicaciones que utilizan esta técnica a menudo solicitan que el modelo responda con código en lugar de lenguaje humano.

El artículo también presenta dos métodos para determinar la coherencia de las respuestas:

  • Votación: este método muestra múltiples respuestas de consultas de LLM con indicaciones similares o variando la opción de temperatura de respuesta. Luego mide qué tan similares son entre sí las respuestas del LLM. Se supone que la respuesta que más concuerda con todas las demás respuestas es correcta. El equipo también definió un valor de «umbral» flexible que alinea la coherencia de las respuestas y las restricciones presupuestarias.
  • Verificación: este enfoque compara las respuestas más consistentes del LLM en dos representaciones de pensamiento distintas (por ejemplo, CoT y PoT). El algoritmo acepta la respuesta del LLM más débil si las dos respuestas rápidas son idénticas.

Dado que la votación requiere múltiples indicaciones, puede ser más adecuado cuando existe un presupuesto para guiar el número umbral.

Conclusión: la combinación de pensamientos le ahorra dinero

Veamos cuánto dinero ahorra la técnica MoT y su impacto en la precisión de las respuestas.

Los investigadores utilizaron la siguiente suma para calcular el costo inmediato:

  • El costo de solicitar el modelo más débil (porque podemos solicitarlo varias veces)
  • El coste del proceso de evaluación de respuestas.
  • Si el proceso de evaluación rechaza la respuesta, agregamos el costo de impulsar el modelo fuerte

Los resultados fueron dramáticos:

  • El uso de variantes de MoT (que combinan votación y verificación con CoT y PoT) puede generar un rendimiento comparable al 40% del costo de usar únicamente GPT-4.
  • En las pruebas contra el CREPE Conjunto de datos de preguntas y respuestas, MoT superó a GPT-4 con un 47% de su costo.
  • Combinar PoT y CoT mejora la toma de decisiones en comparación con utilizar una de las técnicas sola.
  • Aumentar el umbral al utilizar el método de votación no afectó significativamente la calidad a pesar del costo adicional.
  • El modelo de coherencia demostró su eficacia a la hora de identificar de forma fiable las respuestas correctas del LLM. Predijo con éxito cuándo recurrir al uso del modelo fuerte para obtener resultados óptimos.

Alojar y gestionar modelos de lenguajes grandes (LLM) internamente conlleva importantes desafíos. Traen complejidad, altos costos y la necesidad de una amplia infraestructura y recursos de datos. Como resultado, los LLM presentan obstáculos sustanciales para las organizaciones que buscan aprovechar sus amplias capacidades. Eso puede llevarlo a recurrir a LLM alojados. Sin embargo, este enfoque presenta a las empresas aumentos de costos imprevistos y desafíos presupuestarios a medida que se expanden a nuevos casos de uso. Esto resulta especialmente evidente cuando se integran los últimos modelos potentes. Para evitar ese destino, se enfrenta a un nuevo dilema: ¿puede confiar en modelos más débiles y asequibles? ¿Puede superar las preocupaciones sobre su precisión al manejar preguntas complejas?

LLM Cascades with Mixture of Thought (MoT) ofrece dos importantes pasos adelante:

  1. Ahorro sustancial de costes respecto al uso exclusivo de los últimos modelos.
  2. Resultados demostrables a la par de los últimos modelos.

Este avance proporciona a las organizaciones un enfoque práctico y eficiente para navegar el delicado equilibrio entre las poderosas capacidades de los LLM y el imperativo de gestionar los costos de manera efectiva.

El ingeniero de software de Domino, Subir Mansukhani, contribuyó a esta publicación.