¿Puede la IA reemplazar a los participantes humanos en la investigación? Estos científicos ven riesgos
Varias propuestas recientes para utilizar la IA para generar datos de investigación podrían ahorrar tiempo y esfuerzo, pero a un costo.
Imágenes zepp1969/Getty
En ciencia, estudiar las experiencias humanas normalmente requiere tiempo, dinero y, por supuesto, participantes humanos. Pero como grandes modelos de lenguaje como OpenAI GPT-4 se han vuelto más sofisticados, algunos en la comunidad de investigación se han ido entusiasmando cada vez más con la idea de que la inteligencia artificial podría reemplazar a los participantes humanos en algunos estudios científicos.
Ese es el hallazgo de un nuevo papel preimpreso aceptado para la próxima Conferencia sobre Factores Humanos en Sistemas Informáticos (CHI) de la Asociación de Maquinaria de Computación, la mayor reunión de este tipo en el campo de la interacción persona-computadora, en mayo. El artículo se basa en más de una docena de estudios publicados que prueban o proponen el uso de modelos de lenguaje grandes (LLM) para sustituir a sujetos de investigación humanos o para analizar los resultados de la investigación en lugar de los humanos. Pero muchos expertos temen que esta práctica pueda producir resultados científicamente deficientes.
Esta nueva revisión, dirigida por William Agnew, que estudia la ética de la IA y la visión por computadora en la Universidad Carnegie Mellon, cita 13 informes técnicos o artículos de investigación y tres productos comerciales; todos ellos reemplazan o proponen reemplazar a los participantes humanos con LLM en estudios sobre temas que incluyen el comportamiento humano y la psicología, la investigación de mercados o el desarrollo de la IA. En la práctica, esto implicaría que los autores del estudio plantearan preguntas destinadas a humanos a los LLM y les preguntaran sus “pensamientos” o respuestas a varias indicaciones.
Sobre el apoyo al periodismo científico
Si está disfrutando este artículo, considere apoyar nuestro periodismo galardonado al suscribiéndose. Al comprar una suscripción, ayudas a garantizar el futuro de historias impactantes sobre los descubrimientos y las ideas que dan forma a nuestro mundo actual.
Una preimpresiónque ganó un premio al mejor artículo en CHI el año pasado, probó si el anterior LLM GPT-3 de OpenAI podría generar respuestas similares a las humanas en un estudio cualitativo sobre la experiencia de los videojuegos como arte. Los científicos pidieron al LLM que produjera respuestas que pudieran reemplazar las respuestas escritas por humanos a preguntas como “¿Alguna vez experimentaste un juego digital como arte? Piensa en el ‘arte’ de cualquier manera que tenga sentido para ti”. Luego, esas respuestas se mostraron a un grupo de participantes, quienes las consideraron más humanas que las escritas por humanos.
Estas propuestas a menudo citan cuatro beneficios principales del uso de la IA para sintetizar datos, según descubrieron Agnew y sus coautores en su nueva revisión. Podría aumentar la velocidad, reducir costos, evitar riesgos para los participantes y aumentar la diversidad, al simular las experiencias de poblaciones vulnerables que de otro modo no se presentarían a estudios del mundo real. Pero los autores del nuevo artículo concluyen que estos métodos de investigación entrarían en conflicto con los valores centrales de la investigación que involucra participantes humanos: representar, incluir y comprender a los que están siendo estudiados.
Otros miembros de la comunidad científica también se muestran escépticos acerca de los datos de investigación sintetizados por IA.
“Soy muy cauteloso con la idea de que se pueda utilizar IA generativa o cualquier otro tipo de herramienta automatizada para reemplazar a los participantes humanos o cualquier otro tipo de datos del mundo real”, dice Matt Hodgkinson, miembro del consejo del Comité de Ética en Publicaciones. , una organización sin fines de lucro con sede en el Reino Unido que promueve prácticas éticas de investigación académica.
Hodgkinson señala que los modelos de lenguaje de IA pueden no ser tan humanos como los percibimos. Uno análisis reciente que aún no ha sido revisado por pares, estudió cómo los científicos se refieren a la IA en 655.000 artículos académicos y encontró que el nivel de antropomorfismo había aumentado un 50 por ciento entre 2007 y 2023. Pero en realidad, los chatbots de IA no son tan humanos; Estos modelos a menudo se denominan “loros estocásticos”que simplemente remezclan y repiten lo que han aprendido. Carecen de emociones, experiencias o comprensión verdadera de lo que se les pregunta.
En algunos casos, los datos generados por IA podrían ser un complemento útil a los datos recopilados de humanos, afirma Andrew Hundt, que estudia aprendizaje profundo y robótica en la Universidad Carnegie Mellon. “Podría ser útil para algunas pruebas preliminares básicas” de una pregunta de investigación, añade, dejando de lado los datos sintéticos en favor de los datos humanos una vez que comienza un estudio real.
Pero Hundt dice que usar IA para sintetizar respuestas humanas probablemente no ofrecerá muchos beneficios para los estudios de ciencias sociales, en parte porque el propósito de dicha investigación es comprender las complejidades únicas de los humanos reales. Por su propia naturaleza, afirma, los datos sintetizados por IA no pueden revelar estas complejidades. De hecho, los modelos de IA generativa se entrenan con grandes volúmenes de datos que se agregan, analizan y promedian para suavizar dichas inconsistencias.
“[AI models] “Proporcionan una colección de respuestas diferentes que son básicamente 1.000 personas reunidas en una”, dice Eleanor Drage, que estudia la ética de la IA en la Universidad de Cambridge. “No tienen ninguna experiencia vivida; son simplemente un agregador de experiencias”. Y esa agregación de la experiencia humana puede reflejar profundos prejuicios dentro de la sociedad. Por ejemplo, los sistemas de IA que generan imágenes y textos frecuentemente perpetúan las desigualdades raciales y de género. estereotipos.
Algunas de las propuestas recientes identificadas en la nueva revisión también sugirieron que los datos generados por IA podrían ser útiles para estudiar temas delicados como el suicidio. En teoría, esto podría evitar exponer a personas vulnerables a experimentos que podrían provocarles pensamientos suicidas. Pero en muchos sentidos, la vulnerabilidad de estos grupos amplifica el peligro de estudiar su experiencia con las respuestas de la IA. Un juego de roles con un modelo de lenguaje grande como un ser humano muy bien podría proporcionar respuestas que no representan cómo pensarían los humanos reales en el grupo que se está estudiando. Esto podría informar erróneamente tratamientos y políticas futuras. “Creo que eso es increíblemente arriesgado”, dice Hodgkinson. “El fundamental [problem] es que un LLM o cualquier otra máquina herramienta simplemente no es un ser humano”.
Es posible que la IA generativa ya esté debilitando la calidad de los datos de los estudios en humanos, incluso si los científicos no la incorporan directamente a su trabajo. Esto se debe a que muchos estudios utilizan Mechanical Turk de Amazon o sitios web de trabajos similares para recopilar datos de investigación en humanos. Las respuestas ya basadas en Mechanical Turk a menudo se consideran deficientes porque los participantes pueden estar completando las tareas experimentales asignadas lo más rápido posible para ganar dinero en lugar de concentrarse de cerca en ellas. Y aquí están primeros indicios que los trabajadores de Mechanical Turk ya están utilizando la IA generativa para ser más productivos. En un artículo preimpreso, los investigadores pidieron a los trabajadores del sitio que completaran una tarea y dedujeron que entre el 33 y el 46 por ciento de los encuestados utilizaron un LLM para generar su respuesta.
Debido a que no existe un precedente científico para el uso de datos generados por IA en lugar de datos humanos, hacerlo de manera responsable requerirá una reflexión cuidadosa y una cooperación entre campos. “Eso significa pensar con psicólogos, y significa pensar con expertos, en lugar de simplemente dejar que un grupo de científicos lo intenten ellos mismos”, dice Drage. “Creo que debería haber barreras sobre cómo se crea y utiliza este tipo de datos. Y parece que no hay ninguno”.
Lo ideal sería que esas barreras incluyeran directrices internacionales establecidas por organismos académicos sobre lo que es y no es un uso aceptable de los LLM en la investigación o orientación de organizaciones supranacionales sobre cómo tratar los hallazgos obtenidos a partir del uso de datos basados en IA.
“Si los chatbots de IA se utilizan al azar, podrían socavar profundamente la calidad de la investigación científica y conducir a cambios de políticas y cambios de sistemas basados en datos defectuosos”, dice Hodgkinson. “La conclusión absoluta y fundamental es que los investigadores deben validar las cosas adecuadamente y no dejarse engañar por datos simulados.[or think] que es de alguna manera un sustituto de los datos reales”.