Revelando el potencial de los modelos de lenguajes grandes: mejorando la generación de retroalimentación en la educación informática

La retroalimentación es crucial para el éxito de los estudiantes, especialmente en grandes clases de informática que enfrentan una demanda cada vez mayor. Las herramientas automatizadas, que incorporan técnicas de análisis y marcos de prueba, están ganando popularidad, pero a menudo necesitan sugerencias más útiles. Los avances recientes en los modelos de lenguaje grande (LLM) son prometedores a la hora de ofrecer retroalimentación rápida y similar a la humana. Sin embargo, persisten las preocupaciones sobre la precisión, la confiabilidad y las implicaciones éticas del uso de LLM patentados, lo que requiere explorar alternativas de código abierto en la educación informática.

La generación automatizada de retroalimentación en la educación informática ha sido un desafío persistente, centrándose principalmente en identificar errores en lugar de ofrecer una orientación constructiva. Los LLM presentan una solución prometedora a este problema. Investigaciones recientes han explorado el uso de LLM para la generación automatizada de comentarios, pero destacan limitaciones en su desempeño. Si bien algunos estudios muestran que los LLM como GPT-3 y GPT-3.5 pueden identificar problemas en el código de los estudiantes, también exhiben inconsistencias e imprecisiones en la retroalimentación. Además, los modelos actuales de última generación luchan por igualar el desempeño humano al proporcionar retroalimentación sobre los ejercicios de programación. El concepto de utilizar LLM como jueces para evaluar la producción de otros LLM, denominado LLM como jueces, ha ganado fuerza. Este enfoque ha mostrado resultados prometedores, y modelos como GPT-4 alcanzan altos niveles de concordancia con los juicios humanos.

Investigadores de la Universidad Aalto, la Universidad de Jyväskylä y la Universidad de Auckland proporcionan un estudio exhaustivo para evaluar la eficacia de los LLM a la hora de proporcionar retroalimentación sobre los programas escritos por estudiantes y explorar si los LLM de código abierto pueden rivalizar con los propietarios en este sentido. La atención se centra en la retroalimentación que detecta errores en el código de los estudiantes, como errores del compilador o fallas en las pruebas. Inicialmente, las evaluaciones comparan los comentarios de programación de GPT-4 con calificaciones humanas de expertos, estableciendo una línea de base para evaluar la calidad de los comentarios generados por LLM. Posteriormente, el estudio evalúa la calidad de la retroalimentación de varios LLM de código abierto en comparación con modelos propietarios. Para abordar estas preguntas de investigación, los conjuntos de datos existentes y los nuevos comentarios generados por modelos de código abierto se evalúan utilizando GPT-4 como juez.

Se utilizaron datos de un curso de introducción a la programación de la Universidad de Aalto, que consiste en solicitudes de ayuda de los estudiantes y comentarios generados por GPT-3.5. Los criterios de evaluación se centraron en la integridad, la percepción y la selectividad de la retroalimentación. La retroalimentación se evaluó de forma cualitativa y automática mediante GPT-4. Los LLM de código abierto se evaluaron junto con los propietarios, empleando un sistema de calificación basado en rúbricas. GPT-4 juzgó la calidad de los comentarios generados por los LLM basándose en anotaciones humanas. La precisión y la puntuación F0,5 fueron métricas clave utilizadas para evaluar el desempeño del juez.

Los resultados muestran que, si bien la mayoría de los comentarios son perspicaces, sólo un poco más de la mitad están completos y muchos contienen contenido engañoso. GPT-4 tiende a calificar la retroalimentación de manera más positiva en comparación con los anotadores humanos, lo que indica cierto sesgo positivo. Los resultados de rendimiento de clasificación para GPT-4 muestran un rendimiento razonablemente bueno en la clasificación de integridad y un rendimiento ligeramente inferior en selectividad. La clasificación de la percepción obtiene puntuaciones más altas, en parte debido a la distorsión de los datos. Las puntuaciones Kappa indican una concordancia moderada, y GPT-4 mantiene un alto recuerdo en todos los criterios y al mismo tiempo mantiene una precisión y exactitud razonables.

En resumen, este estudio examinó la efectividad de GPT-4 en la evaluación de comentarios de programación generados automáticamente y evaluó el desempeño de varios modelos de lenguaje grandes, incluidos los de código abierto, en la generación de comentarios sobre el código de los estudiantes. Los resultados indican que GPT-4 se muestra prometedor a la hora de evaluar de forma fiable la calidad de la retroalimentación generada automáticamente. Además, los modelos de lenguaje de código abierto demuestran el potencial de generar comentarios sobre la programación. Esto sugiere que la retroalimentación generada por los LLM podría servir como un recurso rentable y accesible en entornos de aprendizaje, permitiendo a los instructores y asistentes de enseñanza centrarse en casos más desafiantes en los que los LLM actualmente pueden no ayudar a los estudiantes.


Revisar la Papel. Todo el crédito por esta investigación va a los investigadores de este proyecto. Además, no olvides seguirnos en Gorjeo. Únete a nuestro Canal de telegramas, Canal de discordiay LinkedIn Grarriba.

Si te gusta nuestro trabajo, te encantará nuestro Boletin informativo..

No olvides unirte a nuestro SubReddit de 42k+ ML


Asjad es consultor interno en Marktechpost. Está cursando B.Tech en ingeniería mecánica en el Instituto Indio de Tecnología, Kharagpur. Asjad es un entusiasta del aprendizaje automático y el aprendizaje profundo que siempre está investigando las aplicaciones del aprendizaje automático en la atención médica.