Los modelos de lenguaje grandes (LLM, por sus siglas en inglés) como GPT-4 se han convertido en un foco importante en la inteligencia artificial debido a su capacidad para manejar diversas tareas, desde generar texto hasta resolver problemas matemáticos complejos. Estos modelos han demostrado capacidades que van mucho más allá de su diseño original, principalmente para predecir la siguiente palabra en una secuencia. Si bien su utilidad abarca numerosas industrias, como la automatización del análisis de datos y la realización de tareas creativas, un desafío clave radica en evaluar de manera confiable su verdadero desempeño. Comprender qué tan bien manejan los LLM tareas deterministas, como contar y realizar operaciones aritméticas básicas, es particularmente importante porque estas tareas ofrecen resultados claros y mensurables. La complejidad surge cuando incluso estas tareas simples revelan inconsistencias en el desempeño de los LLM.
Uno de los principales problemas que aborda esta investigación es la dificultad de evaluar la precisión de los modelos de aprendizaje a distancia como el GPT-4. Las tareas deterministas con una solución exacta son un banco de pruebas ideal para evaluar estos modelos. Sin embargo, el rendimiento del GPT-4 puede variar ampliamente, no solo por la dificultad inherente de la tarea, sino también por pequeñas variaciones en la forma en que se formulan las preguntas o las características de los datos de entrada. Estos factores sutiles pueden conducir a resultados que desafían la capacidad de generalizar las capacidades del modelo. Por ejemplo, incluso tareas tan básicas como contar elementos de una lista muestran una variabilidad considerable en las respuestas del modelo, lo que deja en claro que los puntos de referencia simples pueden no ser suficientes para juzgar con precisión las verdaderas capacidades de los modelos de aprendizaje a distancia.
Los métodos existentes para evaluar el desempeño de los LLM generalmente implican la ejecución de tareas deterministas que permiten obtener respuestas claras e inequívocas. En este estudio, los investigadores probaron la capacidad de GPT-4 para contar elementos en una lista, realizar multiplicaciones largas y ordenar números. Por ejemplo, en una tarea de conteo donde el modelo tenía que determinar cuántas veces aparecía la palabra “mango” en una lista, el desempeño de GPT-4 no fue consistente. En 500 ensayos de una lista con una longitud de 20, GPT-4 obtuvo la respuesta correcta el 48,2% de las veces, pero pequeños cambios en la redacción o la frecuencia de los objetos llevaron a resultados significativamente diferentes. Esta inconsistencia sugiere que los LLM podrían no ser tan capaces como se suponía al realizar tareas aritméticas básicas o basadas en la lógica.
El equipo de investigación de Microsoft Research introdujo un nuevo método para evaluar la sensibilidad de los LLM a los cambios en los parámetros de la tarea. Se centraron en tareas deterministas, como contar y multiplicar largas, en diversas condiciones. Por ejemplo, en un conjunto de ensayos se pidió a GPT-4 que contara las apariciones de palabras en listas de diferentes longitudes, mientras que en otro se centró en multiplicar dos números de 4 dígitos. En todas las tareas, los investigadores realizaron 500 ensayos para cada condición, lo que garantizó resultados estadísticamente significativos. Sus hallazgos mostraron que pequeñas modificaciones, como reformular la indicación o alterar la composición de las listas, dieron lugar a grandes variaciones en el rendimiento. Por ejemplo, la tasa de éxito en la tarea de contar se redujo del 89,0 % para diez elementos a solo el 12,6 % para 40 elementos. De manera similar, la precisión de GPT-4 en tareas de multiplicación largas fue del 100 % para multiplicar dos números de 2 dígitos, pero cayó al 1,0 % para multiplicar dos números de 4 dígitos.
Los investigadores también midieron el rendimiento de GPT-4 en distintas tareas, como encontrar el máximo y la mediana y ordenar los números en una lista. En la tarea de búsqueda de la mediana, GPT-4 logró solo un 68,4 % de éxito para las listas que contenían números de punto flotante, y este porcentaje disminuyó a medida que aumentaba el número de elementos en la lista. Además, cuando se le pidió que ordenara una lista de números con nombres asociados, la precisión de GPT-4 disminuyó significativamente, con un porcentaje de éxito por debajo del 55,0 %. Estos experimentos revelan lo frágil que es el rendimiento del modelo cuando se le asignan operaciones que requieren el manejo preciso de datos estructurados.
La investigación destaca un desafío crítico en la evaluación de las capacidades de los modelos de lenguaje grandes. Si bien GPT-4 demuestra una variedad de comportamientos sofisticados, su capacidad para manejar incluso tareas básicas depende en gran medida de la formulación específica de las preguntas y la estructura de los datos de entrada. Estos hallazgos desafían la noción de que se puede confiar en que los LLM realicen tareas de manera confiable en diferentes contextos. Por ejemplo, la tasa de éxito de GPT-4 para tareas de conteo varió en más del 70% dependiendo de la longitud de la lista y la frecuencia del elemento que se contaba. Esta variabilidad sugiere que la precisión observada en pruebas específicas podría no generalizarse bien a otras tareas similares pero ligeramente modificadas.
En conclusión, esta investigación arroja luz sobre las limitaciones de GPT-4 y otros LLM a la hora de realizar tareas deterministas. Aunque estos modelos son prometedores, su rendimiento es muy sensible a cambios menores en las condiciones de la tarea. Los investigadores demostraron que la precisión de GPT-4 podía pasar de casi perfecta a casi aleatoria simplemente alterando los datos de entrada o reformulando la pregunta. Por ejemplo, la capacidad del modelo para multiplicar dos números de 2 dígitos era perfecta, pero su precisión para multiplicaciones de 4 dígitos se redujo a tan solo el 1,0 %. Los resultados sugieren que es necesario tener cuidado al interpretar las afirmaciones sobre las capacidades de los LLM. Aunque pueden tener un rendimiento impresionante en escenarios controlados, su rendimiento podría no generalizarse a tareas ligeramente modificadas. Es crucial desarrollar métodos de evaluación más rigurosos para evaluar sus verdaderas capacidades.
Echa un vistazo a la PapelTodo el crédito por esta investigación corresponde a los investigadores de este proyecto. Además, no olvides seguirnos en Gorjeo y únete a nuestro Canal de Telegram y LinkedIn Gr¡Arriba!. Si te gusta nuestro trabajo, te encantará nuestro hoja informativa..
No olvides unirte a nuestro Subreddit con más de 50 000 millones de usuarios
Nikhil es consultor en prácticas en Marktechpost. Está cursando una doble titulación integrada en Materiales en el Instituto Indio de Tecnología de Kharagpur. Nikhil es un entusiasta de la IA y el aprendizaje automático que siempre está investigando aplicaciones en campos como los biomateriales y la ciencia biomédica. Con una sólida formación en ciencia de los materiales, está explorando nuevos avances y creando oportunidades para contribuir.