Comprender las limitaciones de los modelos de lenguaje grandes (LLM): nuevos puntos de referencia y métricas para tareas de clasificación

En los últimos años, los modelos de lenguaje grandes (LLM) han demostrado un rendimiento impresionante en una variedad de tareas, especialmente en tareas de clasificación. Estos modelos demuestran un rendimiento asombroso cuando se les dan etiquetas doradas u opciones que incluyen la respuesta correcta. Una limitación importante es que si estas etiquetas doradas se omiten deliberadamente, los LLM seguirían eligiendo entre las posibilidades, incluso si ninguna de ellas es correcta. Esto plantea importantes preocupaciones con respecto a la comprensión e inteligencia reales de estos modelos en escenarios de clasificación.

En el contexto de los LLM, esta ausencia de incertidumbre plantea dos preocupaciones principales:

Versatilidad y procesamiento de etiquetas: los clasificadores LLM pueden trabajar con cualquier conjunto de etiquetas, incluso aquellas cuya precisión es discutible. Para evitar engañar a los usuarios, lo ideal es que imiten el comportamiento humano reconociendo las etiquetas precisas o señalando cuando faltan. Debido a su dependencia de etiquetas predeterminadas, los clasificadores tradicionales no son tan flexibles.

Capacidades discriminativas frente a capacidades generativas: dado que los LLM están pensados principalmente para ser modelos generativos, con frecuencia prescinden de las capacidades discriminativas. Las métricas de alto rendimiento indican que las tareas de clasificación son fáciles. Sin embargo, los parámetros de referencia existentes podrían no reflejar con precisión el comportamiento humano, lo que podría sobrestimar la utilidad de los LLM.

En los últimos tiempos investigaciónSe han proporcionado tres tareas de categorización comunes como puntos de referencia para ayudar con futuras investigaciones.

BANK77: Una tarea de clasificación de intenciones.

MC-TEST: Una tarea de preguntas y respuestas de opción múltiple.

EQUINFER: Una tarea desarrollada recientemente que determina cuál de las cuatro opciones, basándose en los párrafos circundantes en artículos científicos, es la ecuación correcta.

Este conjunto de puntos de referencia se ha denominado KNOW-NO, ya que cubre problemas de clasificación con diferentes tamaños, longitudes y alcances de etiquetas, incluidos espacios de etiquetas a nivel de instancia y de tarea.

También se ha presentado una nueva métrica denominada OMNIACCURACY para evaluar el desempeño de los LLM con mayor precisión. Esta estadística evalúa las habilidades de categorización de los LLM combinando sus resultados de dos dimensiones del marco KNOW-NO, que son las siguientes.

Precisión-C/-ORO: Mide la precisión convencional cuando se proporciona la etiqueta correcta.

PRECISIÓN-SIN ORO: Mide la precisión cuando la etiqueta correcta no está disponible.

OMNIACCURACY busca aproximarse mejor a la inteligencia de discriminación de nivel humano en tareas de clasificación al demostrar la capacidad de los LLM para gestionar situaciones en las que hay etiquetas correctas y aquellas en las que no las hay.

El equipo ha resumido sus principales contribuciones de la siguiente manera.

Cuando no hay respuestas correctas en las tareas de clasificación, este estudio es el primero en llamar la atención sobre las limitaciones de los LLM.

Se ha introducido CLASSIFY-W/O-GOLD, que es un nuevo marco para evaluar los títulos de LLM y describir esta tarea en consecuencia.

Se ha presentado el benchmark KNOW-NO, que comprende una tarea de nueva creación y dos tareas de categorización conocidas. El objetivo de este benchmark es evaluar a los LLM en el escenario CLASSIFY-W/O-GOLD.

Se ha sugerido la métrica OMNIACCURACY, que combina los resultados cuando las etiquetas adecuadas están presentes y ausentes para evaluar el desempeño de LLM en tareas de clasificación. Proporciona una evaluación más profunda de las capacidades de los modelos, lo que garantiza una comprensión clara de qué tan bien funcionan en muchas situaciones.

Revisar la PapelTodo el crédito por esta investigación corresponde a los investigadores de este proyecto. Además, no olvides seguirnos en Gorjeo.

Únete a nuestro Canal de Telegram y LinkedIn Gr¡Arriba!.

Si te gusta nuestro trabajo, te encantará nuestro Boletin informativo..

No olvides unirte a nuestro Subreddit de más de 45 000 millones de usuarios

Tanya Malhotra es una estudiante de último año de la Universidad de Estudios de Petróleo y Energía, Dehradun, que cursa BTech en Ingeniería Informática con una especialización en Inteligencia Artificial y Aprendizaje Automático.
Es una entusiasta de la ciencia de datos con un buen pensamiento analítico y crítico, junto con un gran interés en adquirir nuevas habilidades, liderar grupos y gestionar el trabajo de manera organizada.

🐝 Únase al boletín de investigación de IA de más rápido crecimiento leído por investigadores de Google + NVIDIA + Meta + Stanford + MIT + Microsoft y muchos otros…

Comprender las limitaciones de los modelos de lenguaje grandes (LLM): nuevos puntos de referencia y métricas para tareas de clasificación

ByEquipo de 7 minutos

By Equipo de 7 minutos

Related Post

Tutorial de Salesforce CodeGen: Generar, validar y reclasificar funciones de Python con pruebas unitarias y comprobaciones de seguridad

¿Qué tan poderoso es Claude Fable (Mythos) 5 para la codificación?

Perplexity lanza Brain, un sistema de memoria de mejora automática que crea un gráfico contextual del trabajo de un agente y aprende de la noche a la mañana

You missed

Un ‘tratamiento’ pseudocientífico contra el cáncer implica gasear con lejía a personas desnudas en bolsas de plástico

Se revela el acuerdo de divorcio de Bunnie Xo y Jelly Roll

Tutorial de Salesforce CodeGen: Generar, validar y reclasificar funciones de Python con pruebas unitarias y comprobaciones de seguridad

El terremoto de Japón de 2011 fue tan poderoso que cambió la ubicación de todo el país.