Evaluaciones de modelos versus evaluaciones de tareas | de Aparna Dhinakaran

Imagen creada por el autor usando Dall-E 3

Comprender la diferencia para las solicitudes de LLM

Por un momento, imagina un avión. ¿Qué me viene a la mente? Imaginemos ahora un Boeing 737 y un Águila pescadora V-22. Ambos son aviones diseñados para transportar carga y personas, pero tienen propósitos diferentes: uno más general (vuelos comerciales y carga), el otro muy específico (infiltración, exfiltración y misiones de reabastecimiento para fuerzas de operaciones especiales). Se ven muy diferentes porque están diseñados para diferentes actividades.

Con el auge de los LLM, hemos visto nuestros primeros modelos de ML verdaderamente de propósito general. Su generalidad nos ayuda de muchas maneras:

El mismo equipo de ingeniería ahora puede realizar análisis de sentimiento y extracción de datos estructurados.
Los profesionales de muchos ámbitos pueden compartir conocimientos, lo que hace posible que toda la industria se beneficie de la experiencia de los demás.
Existe una amplia gama de industrias y trabajos en los que la misma experiencia es útil.

Pero como vemos con los aviones, la generalidad requiere una evaluación muy diferente a la de sobresalir en una tarea particular y, al final del día, el valor comercial a menudo proviene de la resolución de problemas particulares.

Esta es una buena analogía para la diferencia entre evaluaciones de modelos y tareas. Las evaluaciones de modelos se centran en la evaluación general, pero las evaluaciones de tareas se centran en evaluar el desempeño de una tarea en particular.

Evaluaciones de modelos versus evaluaciones de tareas | de Aparna Dhinakaran | marzo de 2024

ByEquipo de 7 minutos

Comprender la diferencia para las solicitudes de LLM

¿Cual es la diferencia?

¿Cómo trabajan?

Estableciendo un punto de referencia

Elaboración de la plantilla de evaluación

Métricas e iteración

Aplicación de evaluaciones LLM

Evaluación a lo largo del ciclo de vida del sistema

Ejemplo: ¿la modelo está alucinando?

By Equipo de 7 minutos

Related Post

Desde los escritorios de los desarrolladores hasta toda la organización: cómo ejecutar Claude Cowork en Amazon Bedrock

Google presenta Simula: un marco de razonamiento primero para generar conjuntos de datos sintéticos escalables y controlables en dominios de IA especializados

Una implementación de codificación en Phi-4-Mini de Microsoft para la herramienta de razonamiento de inferencia cuantificada utiliza el ajuste fino RAG y LoRA

You missed

Los científicos programan láminas planas de células para que se doblen en cuencos y rosas

El alto el fuego permanente de Trump es realmente una rendición total a Irán

Las aerolíneas españolas aumentan su capacidad pese a los temores por el combustible

Kim Kardashian y Lewis Hamilton se besan en una cita en la playa (exclusivo)