Evaluación del dominio lingüístico de la inteligencia artificial: una inmersión profunda en las habilidades morfológicas de ChatGPT en todos los idiomas

Los investigadores examinan rigurosamente las capacidades morfológicas de ChatGPT en cuatro idiomas (inglés, alemán, tamil y turco). ChatGPT se queda corto en comparación con sistemas especializados, especialmente en inglés. El análisis subraya las limitaciones de ChatGPT en las habilidades morfológicas, desafiando las afirmaciones de un dominio del lenguaje similar al humano.

Investigaciones recientes sobre modelos de lenguajes grandes (LLM) se han centrado predominantemente en la sintaxis y la semántica, pasando por alto la morfología. La literatura existente sobre LLM a menudo debe prestar más atención a toda la gama de fenómenos lingüísticos. Si bien estudios anteriores han explorado el tiempo pasado en inglés, se necesita un análisis exhaustivo de las habilidades morfológicas en los LLM. El método emplea la prueba Wug para evaluar las habilidades morfológicas de ChatGPT en los cuatro idiomas mencionados. Los hallazgos desafían las afirmaciones de un dominio del lenguaje similar al humano en ChatGPT, lo que indica sus limitaciones en comparación con los sistemas especializados.

Si bien los recientes modelos de lenguajes grandes como GPT-4, LLaMA y PaLM se han mostrado prometedores en cuanto a habilidades lingüísticas, ha habido una brecha notable en la evaluación de sus capacidades morfológicas: la habilidad para generar palabras de manera sistemática. Los estudios anteriores se han centrado predominantemente en la sintaxis y la semántica, pasando por alto la morfología. El enfoque aborda la deficiencia analizando sistemáticamente las habilidades morfológicas de ChatGPT utilizando la prueba wug en los cuatro idiomas mencionados y comparando su desempeño con sistemas especializados.

El método propuesto evalúa las capacidades morfológicas de ChatGPT a través de la prueba de Wug, comparando sus resultados con líneas de base supervisadas y anotaciones humanas utilizando la precisión como métrica. Se crean conjuntos de datos únicos de palabras nonce para garantizar que no haya exposición previa a ChatGPT. Se utilizan tres estilos de indicaciones: disparo cero, disparo único y pocos disparos, con múltiples ejecuciones para cada estilo. La evaluación tiene en cuenta la variación morfológica entre hablantes y abarca cuatro idiomas: inglés, alemán, tamil y turco, mientras compara los resultados con sistemas especialmente diseñados para la evaluación del desempeño.

El estudio reveló que ChatGPT necesita más sistemas diseñados específicamente con capacidades morfológicas, particularmente en inglés. El rendimiento varió según el idioma, y ​​el alemán alcanzó niveles de rendimiento casi humanos. El valor de k (número de respuestas mejor clasificadas consideradas) tuvo un impacto, ampliando la brecha entre las líneas de base y ChatGPT a medida que k aumentaba. ChatGPT tendía a generar inflexiones inverosímiles, potencialmente influenciadas por un sesgo hacia palabras reales. Los hallazgos subrayan la necesidad de realizar más investigaciones sobre las capacidades morfológicas de los grandes modelos lingüísticos y advierten contra las afirmaciones apresuradas de habilidades lingüísticas similares a las humanas.

El estudio analizó rigurosamente las capacidades morfológicas de ChatGPT en cuatro idiomas declarados, revelando su bajo rendimiento, especialmente en inglés. Subraya la necesidad de realizar más investigaciones sobre las capacidades morfológicas de los grandes modelos lingüísticos y advierte contra afirmaciones prematuras de habilidades lingüísticas similares a las humanas. ChatGPT mostró un rendimiento variable en todos los idiomas, y el alemán alcanzó un rendimiento de nivel humano. El estudio también señaló el sesgo del mundo real de ChatGPT, enfatizando la importancia de considerar la morfología en las evaluaciones de modelos de lenguaje, dado su papel fundamental en el lenguaje humano.

El estudio empleó un modelo único (gpt-3.5-turbo-0613), lo que limita la generalización a otras versiones de GPT-3 o GPT-4 y posteriores. Centrarse en un conjunto de idiomas pequeño plantea dudas sobre la generalización de los resultados a diferentes idiomas y conjuntos de datos. Comparar idiomas es un desafío debido a variables no controladas. Los anotadores limitados y los bajos acuerdos entre anotadores para tamil pueden afectar la confiabilidad. El rendimiento variable de ChatGPT en todos los idiomas sugiere posibles limitaciones de generalización.


Revisar la Papel. Todo el crédito por esta investigación va a los investigadores de este proyecto. Además, no olvides unirte. nuestro SubReddit de 32k+ ML, Comunidad de Facebook de más de 40.000 personas, Canal de discordia, y Boletín electrónicodonde compartimos las últimas noticias sobre investigaciones de IA, interesantes proyectos de IA y más.

Si te gusta nuestro trabajo, te encantará nuestra newsletter.

también estamos en Telegrama y WhatsApp.


A Sana Hassan, pasante de consultoría en Marktechpost y estudiante de doble titulación en IIT Madras, le apasiona aplicar la tecnología y la inteligencia artificial para abordar los desafíos del mundo real. Con un gran interés en resolver problemas prácticos, aporta una nueva perspectiva a la intersección de la IA y las soluciones de la vida real.