¿Pueden los LLM seguir las instrucciones de manera confiable? Una mirada a los desafíos de la estimación de la incertidumbre

Los modelos de lenguaje grande (LLM) tienen aplicaciones potenciales en educación, atención médica, apoyo a la salud mental y otros dominios. Sin embargo, su precisión y coherencia al seguir las instrucciones del usuario determinan su valor. Incluso pequeños desvíos de las instrucciones pueden tener graves repercusiones en situaciones de alto riesgo, como aquellas que implican una delicada orientación médica o psiquiátrica. Por lo tanto, la capacidad de los LLM para comprender y ejecutar instrucciones con precisión es un problema importante para su implementación segura.

Estudios recientes han revelado limitaciones significativas en la capacidad de los LLM para seguir instrucciones de manera confiable, lo que plantea dudas sobre su confiabilidad en situaciones prácticas. A veces, incluso los modelos más sofisticados malinterpretan las instrucciones o se apartan de ellas, lo que puede reducir su eficacia, especialmente en situaciones delicadas. A la luz de estos inconvenientes, es necesaria una técnica confiable para determinar cuándo y cómo un LLM puede no estar seguro de su capacidad para seguir instrucciones para reducir los peligros que implica el uso de estos modelos. Un LLM puede proporcionar revisión humana adicional o protecciones que pueden evitar consecuencias inesperadas cuando es capaz de detectar una alta incertidumbre en situaciones en las que no está seguro de su reacción.

En un estudio reciente, un equipo de investigadores de la Universidad de Cambridge, la Universidad Nacional de Singapur y Apple compartieron una evaluación exhaustiva de la capacidad de los LLM para evaluar con precisión su incertidumbre en escenarios de seguimiento de instrucciones. Las tareas de seguimiento de instrucciones plantean distintas dificultades en contraste con las tareas basadas en hechos, donde las estimaciones de incertidumbre se concentran en la precisión de los datos. La capacidad de un LLM para evaluar dudas sobre el cumplimiento de ciertos requisitos, como evitar ciertos temas o producir respuestas en un tono particular, es complicada. Fue un desafío determinar la capacidad real del LLM para seguir instrucciones por sí solo en puntos de referencia anteriores porque varios elementos, como la incertidumbre, la corrección del modelo y la claridad de las instrucciones, estaban frecuentemente entrelazados.

El equipo ha desarrollado un marco de evaluación sistemática para manejar estas complicaciones. Para proporcionar una comparación más transparente de las técnicas de estimación de la incertidumbre en circunstancias controladas, este método presenta dos iteraciones de un conjunto de datos de referencia. Mientras que la versión de referencia realista incluye respuestas LLM generadas de forma natural que imitan la imprevisibilidad del mundo real, la versión de referencia controlada elimina influencias externas para ofrecer un marco claro para evaluar la incertidumbre de los modelos.

Los resultados han demostrado las limitaciones de la mayoría de las técnicas actuales de estimación de la incertidumbre, especialmente cuando se trata de fallos modestos en el seguimiento de instrucciones. Aunque las técnicas que utilizan los estados internos de los LLM demuestran cierto progreso con respecto a métodos más sencillos, todavía son insuficientes en situaciones complejas donde las respuestas pueden no coincidir con precisión o contradecir las instrucciones. Esto sugiere que los LLM necesitan mejorar su estimación de la incertidumbre, particularmente para tareas complejas de seguimiento de instrucciones.

El equipo ha resumido sus principales contribuciones de la siguiente manera.

Este estudio cierra una brecha significativa en investigaciones anteriores sobre LLM al ofrecer la primera evaluación integral de la efectividad de las técnicas de estimación de incertidumbre en tareas de seguimiento de instrucciones.

Después de identificar problemas en los conjuntos de datos anteriores, se creó un nuevo punto de referencia para las tareas de seguimiento de instrucciones. Este punto de referencia permite una comparación directa y exhaustiva de las técnicas de estimación de la incertidumbre en escenarios tanto controlados como del mundo real.

Algunas técnicas, como la autoevaluación y el sondeo, son prometedoras, pero tienen problemas para seguir instrucciones más complicadas. Estos resultados han puesto de relieve lo crucial que es realizar más investigaciones para mejorar las estimaciones de incertidumbre en tareas que implican las siguientes instrucciones, ya que esto podría mejorar la confiabilidad de los agentes de IA.

En conclusión, estos resultados resaltan lo crucial que es crear nuevos enfoques para evaluar la incertidumbre que se adapten al seguimiento de instrucciones. Estos desarrollos pueden aumentar la credibilidad de los LLM y permitirles funcionar como agentes de IA confiables en dominios donde la precisión y la seguridad son esenciales.

Mira el Papel. Todo el crédito por esta investigación va a los investigadores de este proyecto. Además, no olvides seguirnos en Gorjeo y únete a nuestro Canal de telegramas y LinkedIn Grarriba. Si te gusta nuestro trabajo, te encantará nuestro hoja informativa.. No olvides unirte a nuestro SubReddit de más de 55.000 ml.

[Upcoming Live Webinar- Oct 29, 2024] La mejor plataforma para ofrecer modelos optimizados: motor de inferencia Predibase (promocionado)

Tanya Malhotra es estudiante de último año de la Universidad de Estudios de Petróleo y Energía, Dehradun, y cursa BTech en Ingeniería en Ciencias de la Computación con especialización en Inteligencia Artificial y Aprendizaje Automático.
Es una entusiasta de la Ciencia de Datos con buen pensamiento analítico y crítico, junto con un ardiente interés en adquirir nuevas habilidades, liderar grupos y gestionar el trabajo de manera organizada.

Escuche nuestros últimos podcasts de IA y vídeos de investigación de IA aquí ➡️

¿Pueden los LLM seguir las instrucciones de manera confiable? Una mirada a los desafíos de la estimación de la incertidumbre

ByEquipo de 7 minutos

By Equipo de 7 minutos

Related Post

El ex líder de Qwen explica en qué se equivocó el pensamiento híbrido y por qué ahora respalda a los agentes

NVIDIA HORIZON: un agente manos libres que evoluciona los árboles de trabajo de Git y alcanza el 100 % de los estándares RTL

Anthropic lanza Claude Science Beta: un banco de trabajo de IA con múltiples agentes para procesos de genómica, proteómica y quimioinformática reproducibles

You missed

Tres ualabíes rescatados del infierno de una granja de cannabis española

La boda de Taylor Swift y Travis Kelce: lista de invitados de 1.000 personas

En 1776, todavía faltaban 7 años para el vuelo humano. Ahora, volvemos a la luna

Las tormentas amenazan a Washington antes del discurso de Trump