192jnzxysq8phfe Dcktoxg.jpeg

Marco para cumplir con los requisitos prácticos del mundo real

Fuente: Generado con la ayuda de IA (modelo Dall-E de OpenAI)

Desde que ChatGPT de OpenAI arrasó en el mundo en noviembre de 2022, los modelos de lenguajes grandes (LLM) han revolucionado diversas aplicaciones en todas las industrias, desde la comprensión del lenguaje natural hasta la generación de texto. Sin embargo, su desempeño necesita métricas de evaluación rigurosas y multidimensionales para garantizar que cumplan con los requisitos prácticos del mundo real de precisión, eficiencia, escalabilidad y consideraciones éticas. Este artículo describe un amplio conjunto de métricas y métodos para medir el rendimiento de aplicaciones basadas en LLM, proporcionando información sobre marcos de evaluación que equilibran el rendimiento técnico con la experiencia del usuario y las necesidades comerciales.

Esto no pretende ser una guía completa sobre todas las métricas para medir el rendimiento de las aplicaciones LLM, pero proporciona una visión de las dimensiones clave a considerar y algunos ejemplos de métricas. Esto le ayudará a comprender cómo construir su criterio de evaluación; la elección final dependerá de su caso de uso real.

Aunque este artículo se centra en aplicaciones basadas en LLM, esto también podría extrapolarse a otras modalidades.

1.1. Aplicaciones basadas en LLM: definición y alcance

Hoy en día no faltan modelos de lenguajes grandes (LLM). Los LLM como GPT-4, LLaMA de Meta, Claude 3.5 Sonnet de Anthropic o Titan Text Premier de Amazon son capaces de comprender y generar texto similar a un humano, lo que los hace aptos para múltiples aplicaciones posteriores, como chatbots orientados al cliente, generación de contenido creativo y traducción de idiomas. , etc.

1.2. Importancia de la evaluación del desempeño

Los LLM no son fáciles de evaluar, a diferencia de los modelos de ML tradicionales, que tienen criterios de evaluación y conjuntos de datos bastante estandarizados. La naturaleza de caja negra de los LLM, así como la multiplicidad de casos de uso posteriores, justifican una medición del desempeño multifacética a través de múltiples consideraciones. Una evaluación inadecuada puede provocar sobrecostos, una mala experiencia del usuario o riesgos para la organización que los implementa.

Fuente: Generado con la ayuda de IA (modelo Dall-E de OpenAI)

Hay tres formas clave de observar el rendimiento de las aplicaciones basadas en LLM: precisión, costo y latencia. Además, es fundamental asegurarse de contar con un conjunto de criterios de IA responsable para garantizar que la aplicación no sea dañina.

Al igual que el equilibrio entre sesgo y varianza que tenemos en las aplicaciones clásicas de aprendizaje automático, para los LLM debemos considerar el equilibrio entre precisión por un lado y costo + latencia por el otro. En general, será un acto de equilibrio crear una aplicación que sea «precisa» (definiremos lo que esto significa en un momento) y al mismo tiempo sea lo suficientemente rápida y rentable. La elección del LLM, así como la arquitectura de la aplicación de soporte, dependerá en gran medida de la experiencia del usuario final que pretendemos lograr.

2.1. Exactitud

Utilizo el término «Exactitud» aquí de manera bastante vaga, ya que tiene un significado muy específico, pero transmite el mensaje si se usa como una palabra en inglés en lugar de un término matemático.

La precisión de la aplicación depende del caso de uso real: si la aplicación está realizando una tarea de clasificación, si está creando una masa de texto o si se está utilizando para tareas especializadas como Reconocimiento de entidades nombradas (NER), Generación aumentada de recuperación (RAG). ).

2.1.1. Casos de uso de clasificación

Para tareas de clasificación como el análisis de sentimientos (positivo/negativo/neutral), el modelado de temas y las métricas de evaluación clásicas de ML del reconocimiento de entidades nombradas son apropiadas. Miden la precisión en términos de varias dimensiones de la matriz de confusión. Las medidas típicas incluyen precisión, recuperación, puntuación F1, etc.

2.1.2. Casos de uso de generación de texto, incluidos resúmenes y contenido creativo

AZUL, COLORETE y METEORITO Las puntuaciones son métricas comunes que se utilizan para evaluar las tareas de generación de texto, particularmente para la traducción y el resumen. Para simplificar, la gente también usa puntuaciones F1 combinando puntuaciones BLEU y ROUGE. Hay métricas adicionales como Perplexity que son particularmente útiles para evaluar los propios LLM, pero menos útiles para medir el rendimiento de aplicaciones completas. El mayor desafío con todas las métricas anteriores es que se centran en la similitud del texto y no en la similitud semántica. Dependiendo del caso de uso, la similitud del texto puede no ser suficiente y también se deben usar medidas de proximidad semántica como puntuación sem.

2.1.3. Casos de uso de RAG, incluidos resúmenes y contenido creativo

En las aplicaciones basadas en RAG, la evaluación requiere métricas avanzadas para capturar el rendimiento en los pasos de recuperación y generación. Para la recuperación, se puede utilizar la recuperación y la precisión para comparar los documentos relevantes y recuperados. Para la generación uno se pueden utilizar métricas adicionales como perplejidad, tasa de alucinaciones, precisión de los hechos o coherencia semántica. Este artículo describe las métricas clave que uno podría querer incluir en su evaluación.

2.2. Latencia (y rendimiento)

En muchas situaciones, la latencia y el rendimiento de una aplicación determinan su usabilidad final o experiencia de uso. En la generación actual de Internet ultrarrápida, los usuarios no quieren quedarse estancados esperando una respuesta, especialmente cuando ejecutan trabajos críticos.

Cuanto menor sea la latencia, mejor será la experiencia del usuario en aplicaciones orientadas al usuario que requieren respuesta en tiempo real. Puede que esto no sea tan importante para cargas de trabajo que se ejecutan en lotes, por ejemplo, la transcripción de llamadas de servicio al cliente para su uso posterior. En general, tanto la latencia como el rendimiento se pueden mejorar mediante el escalado horizontal o vertical, pero la latencia aún puede depender fundamentalmente de la forma en que está diseñada la aplicación general, incluida la elección del LLM. Un buen punto de referencia para utilizar la velocidad de diferentes API de LLM es Análisis artificiales. Esto complementa otras tablas de clasificación que se centran en la calidad de los LLM, como LMSYS Chatbot Arena, las tablas de clasificación abiertas de LLM de Hugging Face y HELM de Stanford, que se centran más en la calidad de los resultados.

La latencia es un factor clave que seguirá impulsándonos hacia modelos de lenguaje pequeño para aplicaciones que requieren un tiempo de respuesta rápido, donde la implementación en dispositivos perimetrales podría ser una necesidad.

2.3. Costo

Estamos creando aplicaciones LLM para resolver problemas comerciales y crear más eficiencia, con la esperanza de resolver los problemas de los clientes, además de generar un impacto en los resultados finales de nuestras empresas. Todo esto tiene un costo, que podría acumularse rápidamente para las aplicaciones de IA generativa.

En mi experiencia, cuando la gente piensa en el costo de las solicitudes de LLM, hay mucha discusión sobre el costo de la inferencia (que se basa en #tokens), el costo del ajuste de búsqueda o incluso el costo de la capacitación previa de un LLM. . Sin embargo, existe un debate limitado sobre el costo total de propiedad, incluidos los costos de infraestructura y personal.

El costo puede variar según el tipo de implementación (nube, local, híbrida), la escala de uso y la arquitectura. También varía mucho según el ciclo de vida del desarrollo de la aplicación.

  • Costos de infraestructura — incluye inferencia, costos de ajuste o costos potenciales de capacitación previa, así como la infraestructura: costos de memoria, computación, redes y almacenamiento asociados con la aplicación. Dependiendo de dónde se esté creando la aplicación, es posible que no sea necesario administrar estos costos por separado o agruparlos en uno solo si se utilizan servicios administrados como AWS Bedrock.
  • Costo de equipo y personal– A veces es posible que necesitemos un ejército de personas para crear, monitorear y mejorar estas aplicaciones. Esto incluye a los ingenieros para construir esto (científicos de datos e ingenieros de ML, ingenieros de DevOps y MLOps), así como los equipos multifuncionales de gerentes de productos/proyectos, personal de recursos humanos, legal y de riesgos que están involucrados en el diseño y desarrollo. También podemos contar con equipos de anotación y etiquetado para proporcionarnos datos de alta calidad.
  • Otros costos– que puede incluir el costo de adquisición y gestión de datos, entrevistas con clientes, costos de software y licencias, costos operativos (MLOps/LLMOps), seguridad y cumplimiento.

2.4. Métricas de IA éticas y responsables

Las aplicaciones basadas en LLM todavía son novedosas y muchas son meras pruebas de conceptos. Al mismo tiempo, se están generalizando: veo la IA integrada en muchas aplicaciones que uso a diario, incluidas Google, LinkedIn, la aplicación de compras de Amazon, WhatsApp, InstaCart, etc. A medida que las líneas entre la interacción humana y la IA se vuelven más borrosas, se vuelven más comunes. Es más esencial que cumplamos con los estándares responsables de IA. El mayor problema es que estos estándares no existen hoy. Todavía se están desarrollando regulaciones al respecto en todo el mundo (incluido el Orden ejecutiva de la Casa Blanca). Por lo tanto, es fundamental que los creadores de aplicaciones utilicen su mejor criterio. A continuación se detallan algunas de las dimensiones clave a tener en cuenta:

  • Justicia y sesgo: Mide si los resultados del modelo están libres de sesgos y son justos relacionados con la raza, el género, el origen étnico y otras dimensiones.
  • Toxicidad: Mide el grado en que el modelo genera o amplifica contenido dañino, ofensivo o despectivo.
  • Explicabilidad: Evalúa qué tan explicables son las decisiones del modelo.
  • Alucinaciones/consistencia fáctica: Garantiza que el modelo genere respuestas objetivamente correctas, especialmente en industrias críticas como la atención médica y las finanzas.
  • Privacidad: Mide la capacidad del modelo para manejar PII/PHI/otros datos confidenciales de manera responsable, cumpliendo con regulaciones como GDPR.

Bueno… ¡en realidad no! Si bien las cuatro dimensiones y métricas que analizamos son esenciales y un buen punto de partida, no siempre son suficientes para captar el contexto o las preferencias únicas del usuario. Dado que los humanos suelen ser consumidores finales de los resultados, están en la mejor posición para evaluar el rendimiento de las aplicaciones basadas en LLM, especialmente en escenarios complejos o desconocidos. Hay dos formas de aceptar la aportación humana:

  • Directo a través de un humano en el circuito: Los evaluadores humanos brindan retroalimentación cualitativa sobre los resultados de los LLM, enfocándose en la fluidez, la coherencia y la alineación con las expectativas humanas. Esta retroalimentación es crucial para mejorar el comportamiento humano de los modelos.
  • Indirecto a través de métricas secundarias: Las pruebas A|B de usuarios finales pueden comparar métricas secundarias como la participación y la satisfacción del usuario. Por ejemplo, podemos comparar el rendimiento del marketing hiperpersonalizado utilizando IA generativa comparando las tasas de clics y las tasas de conversión.

Como consultor, la respuesta a la mayoría de las preguntas es «Depende». Esto también se aplica a los criterios de evaluación de las solicitudes de LLM. Dependiendo del caso de uso/industria/función, es necesario encontrar el equilibrio adecuado de métricas entre precisión, latencia, costo e IA responsable. Esto siempre debe complementarse con una evaluación humana para asegurarnos de que probamos la aplicación en un escenario del mundo real. Por ejemplo, los casos de uso médico y financiero valorarán la precisión y la seguridad, así como la atribución a fuentes creíbles, las aplicaciones de entretenimiento valorarán la creatividad y la participación del usuario. El costo seguirá siendo un factor crítico a la hora de construir el caso de negocio para una aplicación, aunque la rápida caída del costo de la inferencia LLM podría reducir pronto las barreras de entrada. La latencia suele ser un factor limitante y requerirá una selección del modelo correcto, así como una optimización de la infraestructura para mantener el rendimiento.

Todas las opiniones de este artículo son del autor y no representan un respaldo de ningún producto o servicio.