Una empresa que quiera utilizar un modelo de lenguaje grande (LLM) para resumir informes de ventas o clasificar las consultas de los clientes puede elegir entre cientos de LLM únicos con docenas de variaciones de modelos, cada una con un rendimiento ligeramente diferente.
Para reducir las opciones, las empresas suelen confiar en las plataformas de clasificación de LLM, que recopilan comentarios de los usuarios sobre las interacciones del modelo para clasificar los LLM más recientes en función de su desempeño en determinadas tareas.
Pero los investigadores del MIT descubrieron que un puñado de interacciones de los usuarios pueden sesgar los resultados, lo que lleva a alguien a creer erróneamente que un LLM es la opción ideal para un caso de uso particular. Su estudio revela que eliminar una pequeña fracción de datos de crowdsourcing puede cambiar qué modelos ocupan los primeros puestos.
Desarrollaron un método rápido para probar plataformas de clasificación y determinar si son susceptibles a este problema. La técnica de evaluación identifica los votos individuales más responsables de sesgar los resultados para que los usuarios puedan inspeccionar estos votos influyentes.
Los investigadores dicen que este trabajo subraya la necesidad de estrategias más rigurosas para evaluar las clasificaciones de los modelos. Si bien no se centraron en la mitigación en este estudio, brindan sugerencias que pueden mejorar la solidez de estas plataformas, como recopilar comentarios más detallados para crear las clasificaciones.
El estudio también ofrece una advertencia a los usuarios que pueden confiar en las clasificaciones al tomar decisiones sobre LLM que podrían tener impactos costosos y de gran alcance en una empresa u organización.
“Nos sorprendió que estas plataformas de clasificación fueran tan sensibles a este problema. Si resulta que el LLM mejor clasificado depende sólo de dos o tres comentarios de los usuarios entre decenas de miles, entonces no se puede asumir que el LLM mejor clasificado vaya a superar consistentemente a todos los demás LLM cuando se implemente”, dice Tamara Broderick, profesora asociada en el Departamento de Ingeniería Eléctrica y Ciencias de la Computación (EECS) del MIT; miembro del Laboratorio de Sistemas de Información y Decisión (LIDS) y del Instituto de Datos, Sistemas y Sociedad; filial del Laboratorio de Informática e Inteligencia Artificial (CSAIL); y autor principal de este estudio.
En el artículo se unen a ella los autores principales y estudiantes graduados de EECS, Jenny Huang y Yunyi Shen, así como Dennis Wei, investigador científico senior de IBM Research. El estudio se presentará en la Conferencia Internacional sobre Representaciones del Aprendizaje.
Dejar caer datos
Si bien existen muchos tipos de plataformas de clasificación de LLM, las variaciones más populares piden a los usuarios que envíen una consulta a dos modelos y elijan qué LLM ofrece la mejor respuesta.
Las plataformas agregan los resultados de estos enfrentamientos para producir clasificaciones que muestran qué LLM se desempeñó mejor en determinadas tareas, como codificación o comprensión visual.
Al elegir un LLM de alto rendimiento, un usuario probablemente espera que la clasificación superior de ese modelo se generalice, lo que significa que debería superar a otros modelos en su aplicación similar, pero no idéntica, con un conjunto de datos nuevos.
Los investigadores del MIT estudiaron previamente la generalización en áreas como estadística y economía. Ese trabajo reveló ciertos casos en los que eliminar un pequeño porcentaje de datos puede cambiar los resultados de un modelo, lo que indica que las conclusiones de esos estudios podrían no ser válidas más allá de su entorno limitado.
Los investigadores querían ver si el mismo análisis podría aplicarse a las plataformas de clasificación de LLM.
“Al final del día, un usuario quiere saber si está eligiendo el mejor LLM. Si solo unas pocas indicaciones impulsan esta clasificación, eso sugiere que la clasificación podría no ser la solución definitiva”, afirma Broderick.
Pero sería imposible probar manualmente el fenómeno de caída de datos. Por ejemplo, una clasificación que evaluaron tenía más de 57.000 votos. Probar una caída de datos del 0,1 por ciento significa eliminar cada subconjunto de 57 votos de los 57.000 (hay más de 10194 subconjuntos) y luego volver a calcular la clasificación.
En cambio, los investigadores desarrollaron un método de aproximación eficiente, basado en su trabajo anterior, y lo adaptaron para adaptarlo a los sistemas de clasificación LLM.
“Si bien tenemos una teoría para demostrar que la aproximación funciona bajo ciertas suposiciones, el usuario no necesita confiar en eso. Nuestro método le dice al usuario los puntos de datos problemáticos al final, por lo que puede simplemente descartar esos puntos de datos, volver a ejecutar el análisis y verificar si obtiene un cambio en las clasificaciones”, dice.
Sorprendentemente sensible
Cuando los investigadores aplicaron su técnica a plataformas de clasificación populares, se sorprendieron al ver los pocos puntos de datos que necesitaban eliminar para provocar cambios significativos en los principales LLM. En un caso, eliminar sólo dos votos de más de 57.000, lo que equivale al 0,0035 por ciento, cambió el modelo que ocupa el primer puesto.
Una plataforma de clasificación diferente, que utiliza anotadores expertos y sugerencias de mayor calidad, fue más sólida. En este caso, eliminar 83 de 2.575 evaluaciones (alrededor del 3 por ciento) dio la vuelta a los mejores modelos.
Su examen reveló que muchos votos influyentes pueden haber sido el resultado de un error del usuario. En algunos casos, parecía que había una respuesta clara sobre qué LLM funcionó mejor, pero el usuario eligió el otro modelo, dice Broderick.
“Nunca podremos saber qué estaba en la mente del usuario en ese momento, pero tal vez hicieron clic mal o no prestaron atención, o honestamente no sabían cuál era mejor. La gran conclusión aquí es que no queremos ruido, errores del usuario o algún valor atípico que determine cuál es el LLM mejor clasificado”, añade.
Los investigadores sugieren que recopilar comentarios adicionales de los usuarios, como los niveles de confianza en cada voto, proporcionaría información más rica que podría ayudar a mitigar este problema. Las plataformas de clasificación también podrían utilizar mediadores humanos para evaluar respuestas colaborativas.
Por parte de los investigadores, quieren seguir explorando la generalización en otros contextos y al mismo tiempo desarrollar mejores métodos de aproximación que puedan capturar más ejemplos de no robustez.
“El trabajo de Broderick y sus estudiantes muestra cómo se pueden obtener estimaciones válidas de la influencia de datos específicos en procesos posteriores, a pesar de la intratabilidad de los cálculos exhaustivos dado el tamaño de los modelos y conjuntos de datos modernos de aprendizaje automático”, dice Jessica Hullman, profesora Ginni Rometty de Ciencias de la Computación en la Universidad Northwestern, que no participó en este trabajo. “El trabajo reciente ofrece una idea de las fuertes dependencias de datos en los métodos aplicados habitualmente, pero también muy frágiles, para agregar preferencias humanas y utilizarlas para actualizar un modelo. Ver cómo pocas preferencias realmente podrían cambiar el comportamiento de un modelo ajustado podría inspirar métodos más reflexivos para recopilar estos datos”.
Esta investigación está financiada, en parte, por la Oficina de Investigación Naval, el Laboratorio de IA Watson del MIT-IBM, la Fundación Nacional de Ciencias, Amazon y un premio inicial de CSAIL.