Ai Robot Doing Math On A Chalk Board.jpg

En 2019, un grupo de informáticos realizó un experimento ahora famoso con consecuencias de gran alcance para la investigación de la inteligencia artificial. En ese momento, los algoritmos de visión artificial se estaban volviendo capaces de reconocer una amplia gama de objetos y algunos registraban resultados espectaculares en las pruebas estándar utilizadas para evaluar sus habilidades.

Pero había un problema con el método detrás de todas estas pruebas. Casi todos los algoritmos fueron entrenados en una base de datos de imágenes etiquetadas, conocida como ImageNet. La base de datos contenía millones de imágenes que habían sido cuidadosamente descritas en texto escrito por humanos para ayudar a las máquinas a aprender. Este esfuerzo fue crucial para el desarrollo de la visión artificial e ImageNet se convirtió en una especie de estándar de la industria.

De esta manera, los informáticos utilizaron un subconjunto de imágenes para entrenar algoritmos para identificar una fresa, una mesa, un rostro humano, etc., utilizando imágenes etiquetadas en el conjunto de datos. Luego utilizaron un subconjunto diferente de imágenes para probar los algoritmos. Con el tiempo, los informáticos afirmaron que sus algoritmos se estaban volviendo cada vez más buenos para reconocer objetos en el mundo real.

Reconocimiento de imagen

Pero en privado, los investigadores comenzaron a preguntarse si esto era realmente cierto. Debido a que la base de datos ImageNet se estaba volviendo tan famosa, una explicación alternativa era que sus imágenes, o otras muy similares, se estaban filtrando al mundo real. Entonces, los sistemas de inteligencia artificial entrenados en ellos simplemente reconocían imágenes que ya habían visto.

En ese momento, no había forma de probar esto porque no había bases de datos de imágenes de alta calidad que no se hubieran utilizado ya para entrenar los algoritmos.

Todo eso cambió cuando un equipo de la Universidad de California, Berkeley, creó un nuevo conjunto de datos de imágenes cuidadosamente etiquetadas que sabían que los algoritmos no podrían haber visto. Luego pidieron a los algoritmos que identificaran los objetos en las imágenes y descubrieron que no eran tan buenos como todos habían afirmado.

Su experimento se convirtió en un ejemplo famoso de los peligros de depender de bases de datos únicas para probar máquinas. Sin una gestión cuidadosa de esta base de datos, los sistemas de IA pueden parecer buenos en una tarea en general, pero en realidad solo repiten lo que ya han aprendido.

Esto nos lleva a la generación actual de sistemas de inteligencia artificial que son buenos para resolver ciertos tipos de problemas matemáticos escritos con palabras. Por ejemplo, «James escribe una carta de 3 páginas a 2 amigos diferentes dos veces por semana. ¿Cuántas páginas escribe al año?”.

El hecho de que los sistemas de IA puedan responder preguntas como ésta sugiere que son capaces de razonar. De hecho, existe una base de datos especial llamada GSM8K que los informáticos utilizan para probar la capacidad de razonamiento del sistema de IA. Esta pregunta está tomada de ahí.

GSM8K es un “conjunto de datos de 8,5 mil problemas planteados de matemáticas de escuela primaria, lingüísticamente diversos y de alta calidad, creados por escritores de problemas humanos”. Consta de unas 7500 preguntas para entrenar un sistema de IA y 1000 preguntas para probar el sistema.

A lo largo de los años, los sistemas de inteligencia artificial han mejorado cada vez más a la hora de responder estas preguntas. Esto ha llevado a varias afirmaciones de que los sistemas de IA están mejorando en el tipo de razonamiento necesario para resolver estos problemas.

Pero hay otra posibilidad. Es que GSM8K se ha vuelto tan conocido que las preguntas de la prueba han comenzado a filtrarse. Como resultado, los sistemas de IA pueden encontrarse con ellos durante su formación comparativa más amplia. Entonces, en lugar de responderles razonando, podrían simplemente repetir la respuesta que vieron durante su entrenamiento.

«Existe una creciente preocupación de que parte de este rendimiento en realidad refleje la contaminación del conjunto de datos, donde datos muy parecidos a preguntas de referencia se filtran en los datos de entrenamiento, en lugar de una verdadera capacidad de razonamiento», dicen Hugh Zhang y sus colegas de Scale AI, una nueva empresa con sede en San Francisco. Francisco se centró en limpiar datos para su uso en sistemas de inteligencia artificial.

Siguiendo el ejemplo de los investigadores de Berkeley, el equipo de Scale AI decidió probar esta idea desarrollando su propia prueba de matemáticas de 1250 preguntas. Lo llaman GSM1k y se han asegurado cuidadosamente de que se parezca mucho a la prueba GSM8K, pero nunca se ha publicado.

«Hicimos grandes esfuerzos para garantizar que GSM1k tuviera una distribución de dificultad similar a GSM8k para garantizar una comparación de manzanas con manzanas», dicen. «Nos aseguramos de que los dos puntos de referencia sean comparables en métricas importantes como las tasas de resolución humana, la cantidad de pasos en la solución, la magnitud de la respuesta y más».

Luego probaron una amplia gama de sistemas de inteligencia artificial en los problemas GSM1k para ver qué tan bien funcionaban. Y los resultados constituyen una lectura interesante.

Resulta que una gran cantidad de sistemas de IA funcionan significativamente peor con el nuevo conjunto de datos que con el original. «Al evaluar los principales LLM de código abierto y cerrado en GSM1k, observamos caídas de precisión de hasta un 13 por ciento», dicen Zhang y compañía.

El equipo señala varios sistemas que parecen particularmente vulnerables, como el sistema de inteligencia artificial francés Mistral y el sistema de inteligencia artificial más pequeño de Microsoft, Phi.

Respuesta razonada

Sin embargo, otros muestran poca o ninguna caída en el rendimiento. Estos incluyen ChatGPT, Claude y Gemini. Zhang y sus colegas dicen que estos modelos podrían ser mejores en el razonamiento matemático o que sus creadores de modelos son más cuidadosos con la contaminación de datos.

El equipo también solicita a estos sistemas que generen preguntas desde GSM8K. Resulta que su capacidad para hacer esto está estrechamente relacionada con la diferencia en su capacidad para responder preguntas GSM1k y GSM8k. Esto sugiere fuertemente que los modelos han memorizado parcialmente ejemplos de GSM8k, dicen Zhang y compañía.

Sin embargo, no todo son malas noticias: «Muchos modelos, incluso las familias más sobreadaptadas, muestran fuertes signos de razonamiento matemático generalizable», concluyen.

Se trata de un trabajo interesante que revela las limitaciones de los procesos de evaluación comparativa utilizados para probar la capacidad de los sistemas de IA. Aunque estas pruebas muestran que ha habido avances significativos en la capacidad de razonamiento de los sistemas de IA en los últimos años, se necesita cautela al interpretar los avances.

La pregunta más importante es cómo se pueden comparar con precisión los sistemas de inteligencia artificial más avanzados, particularmente cuando los conjuntos de datos son tan difíciles de curar y sus habilidades se vuelven sobrehumanas. Plantea la posibilidad muy real de que en algún momento en el futuro nunca sepamos la verdadera capacidad de estas máquinas.


Ref: Un examen cuidadoso del rendimiento del modelo de lenguaje grande en aritmética de la escuela primaria: arxiv.org/abs/2405.00332