Las capacidades de razonamiento de los modelos lingüísticos de gran tamaño suelen sobreestimarse

En materia de inteligencia artificial, las apariencias pueden ser engañosas. El misterio que rodea el funcionamiento interno de los grandes modelos de lenguaje (LLM) se debe a su enorme tamaño, a sus complejos métodos de entrenamiento, a sus comportamientos difíciles de predecir y a su difícil interpretación.

Los investigadores del Laboratorio de Ciencias de la Computación e Inteligencia Artificial (CSAIL) del MIT examinaron recientemente con lupa cómo se comportan los estudiantes de máster en derecho en distintas tareas, lo que reveló información interesante sobre la interacción entre la memorización y las habilidades de razonamiento. Resulta que a menudo se sobreestiman sus capacidades de razonamiento.

El estudio comparó las “tareas predeterminadas”, las tareas comunes en las que se entrena y prueba un modelo, con “escenarios contrafácticos”, situaciones hipotéticas que se desvían de las condiciones predeterminadas, que modelos como GPT-4 y Claude normalmente pueden manejar. Los investigadores desarrollaron algunas pruebas fuera de las zonas de confort de los modelos, modificando las tareas existentes en lugar de crear otras completamente nuevas. Utilizaron una variedad de conjuntos de datos y puntos de referencia específicamente diseñados para diferentes aspectos de las capacidades de los modelos para cosas como aritmética, ajedrez, evaluación de código, respuesta a preguntas lógicas, etc.

Cuando los usuarios interactúan con modelos de lenguaje, cualquier operación aritmética suele realizarse en base 10, la base numérica familiar para los modelos. Pero observar que se desempeñan bien en base 10 podría darnos la falsa impresión de que tienen una gran competencia en la adición. Lógicamente, si realmente poseen buenas habilidades para la adición, se esperaría un rendimiento alto y confiable en todas las bases numéricas, similar a las calculadoras o las computadoras. De hecho, la investigación mostró que estos modelos no son tan robustos como muchos piensan inicialmente. Su alto rendimiento se limita a variantes de tareas comunes y sufren una caída constante y severa del rendimiento en los escenarios contrafácticos desconocidos, lo que indica una falta de capacidad de adición generalizable.

El patrón se mantuvo en muchas otras tareas, como la digitación de acordes musicales, el razonamiento espacial e incluso los problemas de ajedrez en los que se modificaron ligeramente las posiciones iniciales de las piezas. Si bien se espera que los jugadores humanos sigan siendo capaces de determinar la legalidad de los movimientos en escenarios modificados (si se les da suficiente tiempo), los modelos tuvieron dificultades y no pudieron desempeñarse mejor que con las conjeturas aleatorias, lo que significa que tienen una capacidad limitada para generalizar a situaciones desconocidas. Y es probable que gran parte de su desempeño en las tareas estándar no se deba a las habilidades generales de la tarea, sino a un sobreajuste o a la memorización directa de lo que han visto en sus datos de entrenamiento.

“Hemos descubierto un aspecto fascinante de los modelos de lenguaje de gran tamaño: son excelentes en escenarios familiares, casi como un camino trillado, pero tienen dificultades cuando el terreno se vuelve desconocido. Este descubrimiento es crucial a medida que nos esforzamos por mejorar la adaptabilidad de estos modelos y ampliar sus horizontes de aplicación”, dice Zhaofeng Wu, estudiante de doctorado del MIT en ingeniería eléctrica y ciencias de la computación, afiliado a CSAIL y autor principal de un nuevo estudio. papel sobre la investigación. “A medida que la IA se vuelve cada vez más omnipresente en nuestra sociedad, debe manejar de manera confiable diversos escenarios, ya sean familiares o no. Esperamos que algún día estos conocimientos sirvan para diseñar futuros LLM con mayor solidez”.

A pesar de los conocimientos adquiridos, existen, por supuesto, limitaciones. El enfoque del estudio en tareas y entornos específicos no captó la gama completa de desafíos que los modelos podrían enfrentar potencialmente en aplicaciones del mundo real, lo que indica la necesidad de entornos de prueba más diversos. El trabajo futuro podría implicar ampliar la gama de tareas y condiciones contrafácticas para descubrir más debilidades potenciales. Esto podría significar analizar escenarios más complejos y menos comunes. El equipo también quiere mejorar la interpretabilidad mediante la creación de métodos para comprender mejor la lógica detrás de los procesos de toma de decisiones de los modelos.

“A medida que los modelos de lenguaje se amplían, comprender sus datos de entrenamiento se vuelve cada vez más difícil, incluso para los modelos abiertos, y más aún para los propietarios”, dice Hao Peng, profesor adjunto de la Universidad de Illinois en Urbana-Champaign. “La comunidad sigue desconcertada sobre si estos modelos realmente se generalizan a tareas no vistas o aparentemente tienen éxito memorizando los datos de entrenamiento. Este artículo da pasos importantes para abordar esta cuestión. Construye un conjunto de evaluaciones contrafácticas cuidadosamente diseñadas, que brindan nuevas perspectivas sobre las capacidades de los modelos de lenguaje de última generación. Revela que su capacidad para resolver tareas no vistas es quizás mucho más limitada de lo que muchos anticiparon. Tiene el potencial de inspirar futuras investigaciones para identificar los modos de falla de los modelos actuales y desarrollar otros mejores”.

Entre los autores adicionales se incluyen Najoung Kim, profesor asistente de la Universidad de Boston e investigador visitante de Google, y siete afiliados de CSAIL: los estudiantes de doctorado en ingeniería eléctrica y ciencias de la computación (EECS) del MIT Linlu Qiu, Alexis Ross, Ekin Akyürek SM ’21 y Boyuan Chen; el ex investigador postdoctoral e investigador de IA/ML de Apple Bailin Wang; y los profesores asistentes de EECS Jacob Andreas y Yoon Kim.

El estudio del equipo recibió apoyo, en parte, del MIT–IBM Watson AI Lab, el MIT Quest for Intelligence y la National Science Foundation. El equipo presentó el trabajo en el Capítulo norteamericano de la Asociación de Lingüística Computacional (NAACL) el mes pasado.

Las capacidades de razonamiento de los modelos lingüísticos de gran tamaño suelen sobreestimarse | Noticias del MIT

ByEquipo de 7 minutos

By Equipo de 7 minutos

Related Post

Una guía de codificación para la corrección del sesgo de la encuesta utilizando el equilibrio de investigación de Facebook con la clasificación IPW CBPS y los métodos de posestratificación

Google agrega webhooks basados en eventos a la API de Gemini, eliminando la necesidad de realizar encuestas en trabajos de IA de larga duración

Genere paneles a partir de indicaciones en lenguaje natural en Amazon Quick

You missed

Organismos inmobiliarios se fusionan en el Reino Unido para formar Real Estate: grupo de presión del Reino Unido

El PSOE denuncia “caos” en el Ayuntamiento de San Fulgencio tras quedarse el municipio sin interventor – El Líder

Dentro del patrimonio neto de 85 millones de rupias de Trisha Krishnan: desde un enorme sueldo ‘Leo’ hasta lujosas casas y automóviles de alta gama

Una guía de codificación para la corrección del sesgo de la encuesta utilizando el equilibrio de investigación de Facebook con la clasificación IPW CBPS y los métodos de posestratificación