Los exámenes presenciales dificultan que los estudiantes hagan trampas usando IA
Trish Gant / Alamy
El noventa y cuatro por ciento de los envíos de exámenes universitarios creados con ChatGPT no fueron detectados como generados por inteligencia artificial, y estos envíos tendieron a obtener puntuaciones más altas que el trabajo de los estudiantes reales.
Peter Bufanda En la Universidad de Reading, Reino Unido, y sus colegas utilizaron ChatGPT para generar respuestas a 63 preguntas de evaluación sobre cinco módulos de las carreras de psicología de la universidad. Los estudiantes realizaron estos exámenes en casa, por lo que se les permitió consultar notas y referencias, y podrían haber utilizado inteligencia artificial, aunque esto no estaba permitido.
Las respuestas generadas por la IA se presentaron junto con el trabajo real de los estudiantes y representaron, en promedio, el 5 por ciento del total de los guiones calificados por los académicos. A los marcadores no se les informó que estaban verificando el trabajo de 33 estudiantes falsos, cuyos nombres fueron generados por ChatGPT.
Las evaluaciones incluyeron dos tipos de preguntas: respuestas cortas y ensayos más largos. Las indicaciones dadas a ChatGPT comenzaban con las palabras “Incluyendo referencias a literatura académica pero no una sección de referencia separada”, luego copiaban la pregunta del examen.
En todos los módulos, solo el 6 por ciento de los envíos de IA fueron marcados como potencialmente no ser el trabajo del estudiante, aunque en algunos módulos, ningún trabajo generado por IA fue marcado como sospechoso. “En promedio, las respuestas de la IA obtuvieron calificaciones más altas que las presentaciones de nuestros estudiantes reales”, dice Scare, aunque hubo cierta variabilidad entre los módulos.
“La IA actual tiende a tener dificultades con un razonamiento más abstracto y con la integración en la información”, añade. Pero en las 63 presentaciones de IA, había un 83,4 por ciento de posibilidades de que el trabajo de IA superara al de los estudiantes.
Los investigadores afirman que su trabajo es el estudio más grande y sólido de su tipo hasta la fecha. Aunque el estudio sólo verificó trabajos de la carrera de psicología de la Universidad de Reading, Scare cree que es una preocupación para todo el sector académico. “No tengo ninguna razón para pensar que otras áreas temáticas no tendrían el mismo tipo de problema”, dice.
“Los resultados muestran exactamente lo que esperaba ver”, dice Thomas Lancaster en el Imperial College de Londres. “Sabemos que la IA generativa puede producir respuestas que parezcan razonables a preguntas textuales simples y limitadas”. Señala que las evaluaciones no supervisadas que incluyen respuestas cortas siempre han sido susceptibles de hacer trampa.
La carga de trabajo de los académicos que se espera que califiquen sus trabajos tampoco ayuda a su capacidad para detectar falsificaciones de IA. “Es muy poco probable que los marcadores de preguntas de respuesta corta, presionados por el tiempo, planteen casos de mala conducta de la IA por capricho”, dice Lancaster. “Estoy seguro de que esta no es la única institución donde esto está sucediendo”.
Abordarlo desde su origen será casi imposible, afirma Scare. Por lo tanto, el sector debe reconsiderar lo que está evaluando. “Creo que será necesario que todo el sector reconozca el hecho de que vamos a tener que incorporar la IA en las evaluaciones que damos a nuestros estudiantes”, afirma.
Temas: