Estudio: los chatbots de IA proporcionan información menos precisa a los usuarios vulnerables | Noticias del MIT

Los grandes modelos lingüísticos (LLM, por sus siglas en inglés) han sido defendidos como herramientas que podrían democratizar el acceso a la información en todo el mundo, ofreciendo conocimientos en una interfaz fácil de usar, independientemente de los antecedentes o la ubicación de una persona. Sin embargo, una nueva investigación del Centro para la Comunicación Constructiva (CCC) del MIT sugiere que estos sistemas de inteligencia artificial en realidad pueden funcionar peor para los usuarios que más podrían beneficiarse de ellos.

Un estudio realizado por investigadores de CCC, con sede en el MIT Media Lab, encontró que los chatbots de IA de última generación, incluidos GPT-4 de OpenAI, Claude 3 Opus de Anthropic y Llama 3 de Meta, a veces brindan respuestas menos precisas y menos veraces a usuarios que tienen un menor dominio del inglés, una educación menos formal o que provienen de fuera de los Estados Unidos. Los modelos también se niegan a responder preguntas con tasas más altas para estos usuarios y, en algunos casos, responden con un lenguaje condescendiente o condescendiente.

“Nos motivó la perspectiva de que los LLM ayudaran a abordar la accesibilidad desigual a la información en todo el mundo”, dice la autora principal Elinor Poole-Dayan SM ’25, asociada técnica de la MIT Sloan School of Management que dirigió la investigación como afiliada de CCC y estudiante de maestría en artes y ciencias de los medios. “Pero esa visión no puede convertirse en realidad sin garantizar que los sesgos del modelo y las tendencias dañinas se mitiguen de manera segura para todos los usuarios, independientemente del idioma, la nacionalidad u otros datos demográficos”.

En la Conferencia AAAI sobre Inteligencia Artificial en enero se presentó un artículo que describe el trabajo, “LLM Targeted Under Performance Disproportionately Impacts Vulnerable Users”.

Bajo rendimiento sistemático en múltiples dimensiones

Para esta investigación, el equipo probó cómo los tres LLM respondieron a preguntas de dos conjuntos de datos: TruthfulQA y SciQ. TruthfulQA está diseñado para medir la veracidad de un modelo (basándose en conceptos erróneos comunes y verdades literales sobre el mundo real), mientras que SciQ contiene preguntas de exámenes de ciencias que prueban la precisión de los hechos. Los investigadores antepusieron breves biografías de los usuarios a cada pregunta, variando tres rasgos: nivel educativo, dominio del inglés y país de origen.

En los tres modelos y ambos conjuntos de datos, los investigadores encontraron caídas significativas en la precisión cuando las preguntas provenían de usuarios descritos como con menos educación formal o como hablantes no nativos de inglés. Los efectos fueron más pronunciados para los usuarios en la intersección de estas categorías: aquellos con educación menos formal que tampoco eran hablantes nativos de inglés vieron las mayores caídas en la calidad de la respuesta.

La investigación también examinó cómo el país de origen afectaba el rendimiento del modelo. Al probar a usuarios de Estados Unidos, Irán y China con antecedentes educativos equivalentes, los investigadores encontraron que Claude 3 Opus en particular tuvo un desempeño significativamente peor para los usuarios de Irán en ambos conjuntos de datos.

“Vemos la mayor caída en la precisión para el usuario que no es hablante nativo de inglés y tiene menos educación”, dice Jad Kabbara, científico investigador del CCC y coautor del artículo. “Estos resultados muestran que los efectos negativos del comportamiento del modelo con respecto a estos rasgos de usuario se agravan de manera preocupante, lo que sugiere que dichos modelos implementados a escala corren el riesgo de difundir comportamientos dañinos o información errónea hacia aquellos que son menos capaces de identificarlos”.

Negativas y lenguaje condescendiente

Quizás lo más sorprendente fueron las diferencias en la frecuencia con la que los modelos se negaron a responder preguntas por completo. Por ejemplo, Claude 3 Opus se negó a responder casi el 11 por ciento de las preguntas de los usuarios con menor nivel educativo y de habla no nativa inglesa, en comparación con sólo el 3,6 por ciento de la condición de control sin biografía del usuario.

Cuando los investigadores analizaron manualmente estas negativas, encontraron que Claude respondió con un lenguaje condescendiente, condescendiente o burlón el 43,7 por ciento de las veces para los usuarios con menor nivel educativo, en comparación con menos del 1 por ciento para los usuarios con un nivel educativo alto. En algunos casos, el modelo imitó un inglés entrecortado o adoptó un dialecto exagerado.

El modelo también se negó a proporcionar información sobre ciertos temas específicamente para usuarios menos educados de Irán o Rusia, incluidas preguntas sobre energía nuclear, anatomía y eventos históricos, a pesar de que respondió correctamente las mismas preguntas para otros usuarios.

“Este es otro indicador que sugiere que el proceso de alineación podría incentivar a los modelos a ocultar información a ciertos usuarios para evitar desinformarlos, aunque el modelo claramente conoce la respuesta correcta y se la proporciona a otros usuarios”, dice Kabbara.

Ecos del prejuicio humano

Los hallazgos reflejan patrones documentados de sesgo sociocognitivo humano. La investigación en ciencias sociales ha demostrado que los hablantes nativos de inglés a menudo perciben a los hablantes no nativos como menos educados, inteligentes y competentes, independientemente de su experiencia real. Se han documentado percepciones sesgadas similares entre profesores que evalúan a estudiantes cuyo idioma nativo no es el inglés.

“El valor de los grandes modelos lingüísticos es evidente en su extraordinaria aceptación por parte de los individuos y la enorme inversión que fluye hacia la tecnología”, dice Deb Roy, profesora de artes y ciencias de los medios, directora del CCC y coautora del artículo. “Este estudio es un recordatorio de lo importante que es evaluar continuamente los sesgos sistemáticos que pueden infiltrarse silenciosamente en estos sistemas, creando daños injustos para ciertos grupos sin que ninguno de nosotros seamos plenamente conscientes”.

Las implicaciones son particularmente preocupantes dado que las funciones de personalización, como la Memoria de ChatGPT, que rastrea la información del usuario a lo largo de las conversaciones, se están volviendo cada vez más comunes. Estas características corren el riesgo de tratar de manera diferencial a grupos ya marginados.

“Los LLM se han comercializado como herramientas que fomentarán un acceso más equitativo a la información y revolucionarán el aprendizaje personalizado”, dice Poole-Dayan. “Pero nuestros hallazgos sugieren que en realidad pueden exacerbar las desigualdades existentes al proporcionar sistemáticamente información errónea o negarse a responder consultas a ciertos usuarios. Las personas que más pueden confiar en estas herramientas podrían recibir información deficiente, falsa o incluso dañina”.