Desde el rastreo de conocimiento profundo hasta DKT2: un salto hacia adelante en la IA educativa

El rastreo de conocimiento (KT) juega un papel crucial en los sistemas de tutoría inteligente (ITS) modelando los estados de conocimiento de los estudiantes y prediciendo su desempeño futuro. Modelos KT tradicionales, como el seguimiento del conocimiento bayesiano (BKT) y los primeros aprendizaje profundoLos enfoques basados ​​en el seguimiento de conocimiento profundo (DKT) han demostrado efectividad en el aprendizaje de las interacciones de los estudiantes. Sin embargo, los avances recientes en modelos de KT secuenciales profundos, como el rastreo de conocimiento atento (AKT), han priorizado cada vez más el rendimiento predictivo sobre la aplicabilidad práctica y el modelado integral de conocimiento. Estos modelos a menudo enfrentan desafíos fundamentales, incluida la eficiencia informática paralela limitada, las dificultades para modificar el conocimiento almacenado y la capacidad de almacenamiento restringido. Además, muchos modelos KT profundos dependen de interacciones futuras, que generalmente no están disponibles en las aplicaciones del mundo real, lo que limita su usabilidad. Abordar estos desafíos es fundamental para mejorar la escalabilidad, la interpretabilidad y la efectividad de los modelos KT en los sistemas educativos a gran escala.

Los modelos KT existentes utilizan arquitecturas basadas en el aprendizaje profundo para pronosticar el rendimiento de los estudiantes, con modelos como DKT que utilizan redes a largo plazo de memoria a corto plazo (LSTM) para aprender la dinámica del aprendizaje. Aunque los modelos basados ​​en la atención como AKB utilizan mecanismos de atención para mejorar las dependencias de largo alcance, toman respuestas futuras como entrada, lo que no se aplica en escenarios del mundo real. Los modelos secuenciales profundos también sufren problemas de paralelización y memoria, lo que reduce su eficiencia al trabajar con conjuntos de datos a gran escala. Otros métodos, incluidos los modelos basados ​​en gráficos y acuáticos de memoria, generalmente no son interpretables, lo que significa que no pueden proporcionar información útil sobre el proceso de aprendizaje del estudiante. Estas déficits dan como resultado una brecha entre los avances teóricos y las aplicaciones prácticas, donde se necesita un modelo KT aún más escalable, interpretable y eficiente.

Los investigadores de la Universidad de Zhejiang proponen DKT2, un nuevo marco KT basado en el aprendizaje profundo que aprovecha la arquitectura XLSTM para superar las limitaciones de los métodos anteriores DKT2 es diferente de los modelos anteriores, ya que utiliza el modelo Rasch para mejorar la representación de entrada e incorpora la teoría de la respuesta al elemento (IRT ) para una mejor interpretabilidad. Al identificar un conocimiento familiar y desconocido, DKT2 ofrece una mejor representación del estado de aprendizaje en los estudiantes. El uso de XLSTM resuelve las limitaciones de LSTM clásicos a través de decisiones de almacenamiento revisables, mayor capacidad de memoria y paralelización completa, lo que resulta en una mayor escalabilidad y eficiencia. La innovación permite que el modelo mantenga una aplicabilidad robusta al tiempo que proporciona una mejor precisión predictiva que sus contrapartes.

DKT2 adopta una tubería de aprendizaje sistemática con la incrustación de Rasch para registrar las interacciones estudiantiles y incluye niveles de dificultad para una mejor representación de entrada. Los bloques XLSTM usan SLSTM y MLSTM para facilitar una mejor retención de memoria, optimización de paralelización y actualización de conocimiento dinámico. La predicción del IRT y el módulo de descomposición del conocimiento separan el conocimiento familiar y desconocido para permitir el rastreo de conocimiento más interpretable. El conocimiento integrado de la fusión fusiona a los estados de conocimiento histórico y predijo preguntas para crear una visión general integral del progreso del aprendizaje de los estudiantes. El modelo está entrenado con pérdida de entropía entre la entropía y se evalúa en tres conjuntos de datos a gran escala: Assist17, EDNET y COMP, para garantizar la robustez en el mundo real en sus aplicaciones.

Experimentos extensos en tres conjuntos de datos a gran escala demuestran que DKT2 supera constantemente a 17 modelos de referencia en múltiples tareas de predicción, incluidas las predicciones de un paso, múltiples pasos y variables de longitud de historia. Logra una mayor precisión, AUC y RMSE más bajo en comparación con modelos secuenciales profundos como DKT y modelos basados ​​en la atención como AKT. La integración de XLSTM mejora la paralelización y la capacidad de memoria, mitigando la acumulación de errores en predicciones de múltiples pasos, mientras que el modelo Rasch y el IRT mejoran la interpretabilidad al distinguir efectivamente el conocimiento familiar y desconocido. Un estudio de ablación confirma que cada componente de DKT2 contribuye significativamente a su rendimiento superior, particularmente MLSTM, que es crucial para la escalabilidad en conjuntos de datos a gran escala. Estos resultados establecen DKT2 como una solución robusta y aplicable para los sistemas de tutoría inteligente del mundo real.

DKT2 es un avance en el rastreo de conocimiento al combinar XLSTM, el modelo Rasch e IRT para lograr un equilibrio perfecto entre la precisión de la predicción y la usabilidad del mundo real. A través de la generación de estado de conocimiento interpretable y el aprendizaje paralelo, el aprendizaje de ahorro de memoria, el método garantiza la escalabilidad y la mejor personalización en sus aplicaciones. Las áreas de trabajo futuro incluyen extender la aplicabilidad de DKT2 a conjuntos de datos ultra grandes y mejorar su capacidad de predicción de concepto múltiple para apoyar mejor los sistemas de aprendizaje adaptativo.


Verificar el Papel. Todo el crédito por esta investigación va a los investigadores de este proyecto. Además, no olvides seguirnos Gorjeo y únete a nuestro Canal de telegrama y LinkedIn GRsalpicar. No olvides unirte a nuestro 70k+ ml de subreddit.

🚨 Conocer Intellagent: Un marco de múltiples agentes de código abierto para evaluar un sistema de IA conversacional complejo (Promocionado)


Aswin AK es un pasante de consultoría en MarktechPost. Está persiguiendo su doble título en el Instituto de Tecnología Indio, Kharagpur. Le apasiona la ciencia de datos y el aprendizaje automático, aportando una sólida experiencia académica y una experiencia práctica en la resolución de desafíos de dominio de la vida real.