Study Hero.png

La lectura tiene muchos beneficios para los jóvenes estudiantes, tales como mejores habilidades lingüísticas y para la viday se ha demostrado que leer por placer se correlaciona con éxito académico. Además, los estudiantes han informado bienestar emocional mejorado de la lectura, así como mejor conocimiento general y mejor comprensión de otras culturas. Con la gran cantidad de material de lectura tanto en línea como fuera de línea, encontrar contenido apropiado para la edad, relevante y atractivo puede ser una tarea desafiante, pero ayudar a los estudiantes a hacerlo es un paso necesario para involucrarlos en la lectura. Las recomendaciones efectivas que presentan a los estudiantes material de lectura relevante ayudan a que sigan leyendo, y aquí es donde el aprendizaje automático (ML) puede ayudar.

ML ha sido ampliamente utilizado en la construcción sistemas de recomendación para varios tipos de contenido digital, desde videos hasta libros y artículos de comercio electrónico. Los sistemas de recomendación se utilizan en una variedad de plataformas digitales para ayudar a mostrar contenido relevante y atractivo para los usuarios. En estos sistemas, los modelos de ML están capacitados para sugerir elementos a cada usuario individualmente en función de las preferencias del usuario, la participación del usuario y los elementos recomendados. Estos datos proporcionan una fuerte señal de aprendizaje para que los modelos puedan recomendar elementos que probablemente sean de interés, mejorando así la experiencia del usuario.

En «ESTUDIO: Sistemas de recomendación de decodificadores causales temporales socialmente conscientes”, presentamos un sistema de recomendación de contenido para audiolibros en un entorno educativo teniendo en cuenta la naturaleza social de la lectura. Desarrollamos el algoritmo STUDY en colaboración con Aliado de aprendizaje, una organización educativa sin fines de lucro, cuyo objetivo es promover la lectura en estudiantes disléxicos, que proporciona audiolibros a los estudiantes a través de un programa de suscripción para toda la escuela. Aprovechando la amplia gama de audiolibros en la biblioteca de Learning Ally, nuestro objetivo es ayudar a los estudiantes a encontrar el contenido adecuado para ayudarlos a mejorar su experiencia de lectura y su compromiso. Motivados por el hecho de que lo que los compañeros de una persona están leyendo actualmente tiene efectos significativos sobre lo que les parecería interesante leer, procesamos conjuntamente el historial de compromiso con la lectura de los estudiantes que están en la misma aula. Esto permite que nuestro modelo se beneficie de la información en vivo sobre las tendencias actuales dentro del grupo social localizado del estudiante, en este caso, su salón de clases.

Datos

Aliado de aprendizaje tiene una gran biblioteca digital de audiolibros seleccionados dirigidos a los estudiantes, por lo que es ideal para construir un modelo de recomendación social para ayudar a mejorar los resultados de aprendizaje de los estudiantes. Recibimos dos años de datos anónimos de consumo de audiolibros. Todos los estudiantes, escuelas y grupos en los datos fueron anonimizados, solo identificados por una identificación generada aleatoriamente que Google no puede rastrear hasta entidades reales. Además, todos los metadatos potencialmente identificables solo se compartieron de forma agregada, para proteger a los estudiantes y las instituciones de ser reidentificados. Los datos consistían en registros con marca de tiempo de las interacciones de los estudiantes con los audiolibros. Para cada interacción, tenemos una identificación de estudiante anonimizada (que incluye el nivel de grado del estudiante y la identificación de la escuela anonimizada), un identificador de audiolibro y una fecha. Si bien muchas escuelas distribuyen a los estudiantes en un solo grado en varias aulas, aprovechamos estos metadatos para hacer la suposición simplificada de que todos los estudiantes en la misma escuela y en el mismo nivel de grado están en el mismo salón de clases. Si bien esto proporciona la base necesaria para construir un mejor modelo de recomendación social, es importante tener en cuenta que esto no nos permite volver a identificar a personas, grupos de clases o escuelas.

El algoritmo de ESTUDIO

Enmarcamos el problema de la recomendación como un clic por calificaciones problema de predicción, donde modelamos la probabilidad condicional de que un usuario interactúe con cada elemento específico condicionado tanto por 1) las características del usuario y del elemento y 2) la secuencia del historial de interacción del elemento para el usuario en cuestión. Trabajo previo sugiere TransformadorLos modelos basados ​​en, una clase de modelo ampliamente utilizada desarrollada por Google Research, son muy adecuados para modelar este problema. Cuando cada usuario se procesa individualmente, esto se convierte en un problema de modelado de secuencias autorregresivas. Usamos este marco conceptual para modelar nuestros datos y luego extendemos este marco para crear el enfoque STUDY.

Si bien este enfoque para la predicción de la tasa de clics puede modelar las dependencias entre las preferencias de elementos pasadas y futuras para un usuario individual y puede aprender patrones de similitud entre los usuarios en el momento del entrenamiento, no puede modelar las dependencias entre diferentes usuarios en el momento de la inferencia. Para reconocer la naturaleza social de la lectura y remediar esta deficiencia, desarrollamos el modelo STUDY, que concatena múltiples secuencias de libros leídos por cada estudiante en una sola secuencia que recopila datos de varios estudiantes en un solo salón de clases.

Sin embargo, esta representación de datos requiere una diligencia cuidadosa si va a ser modelada por transformadores. En los transformadores, la máscara de atención es la matriz que controla qué entradas se pueden usar para informar las predicciones de qué salidas. El patrón de usar todos los tokens anteriores en una secuencia para informar la predicción de una salida conduce a la matriz de atención triangular superior que tradicionalmente se encuentra en los decodificadores causales. Sin embargo, dado que la secuencia alimentada en el modelo de ESTUDIO no está ordenada temporalmente, aunque cada una de sus subsecuencias constituyentes lo esté, un estándar decodificador causal ya no es una buena opción para esta secuencia. Al intentar predecir cada token, el modelo no puede atender a todos los tokens que lo preceden en la secuencia; algunos de estos tokens pueden tener marcas de tiempo posteriores y contener información que no estaría disponible en el momento de la implementación.

En esta figura mostramos la máscara de atención típicamente utilizada en los decodificadores causales. Cada columna representa una salida y cada columna representa una salida. Un valor de 1 (mostrado en azul) para una entrada de matriz en una posición particular indica que el modelo puede observar la entrada de esa fila al predecir la salida de la columna correspondiente, mientras que un valor de 0 (mostrado en blanco) denota lo contrario .

El modelo STUDY se basa en transformadores causales al reemplazar la máscara de atención de matriz triangular con una máscara de atención flexible con valores basados ​​en marcas de tiempo para permitir la atención en diferentes subsecuencias. En comparación con un transformador normal, que no permitiría la atención en diferentes subsecuencias y tendría una máscara de matriz triangular dentro de la secuencia, STUDY mantiene una matriz de atención triangular causal dentro de una secuencia y tiene valores flexibles en las secuencias con valores que dependen de las marcas de tiempo. Por lo tanto, las predicciones en cualquier punto de salida de la secuencia se basan en todos los puntos de entrada que ocurrieron en el pasado en relación con el punto de tiempo actual, independientemente de si aparecen antes o después de la entrada actual en la secuencia. Esta restricción causal es importante porque si no se aplica en el momento del tren, el modelo podría aprender a hacer predicciones utilizando información del futuro, que no estaría disponible para una implementación en el mundo real.

En (a) mostramos un transformador autorregresivo secuencial con atención causal que procesa a cada usuario individualmente; en (b) mostramos un pase hacia adelante conjunto equivalente que da como resultado el mismo cálculo que (a); y finalmente, en (c) mostramos que al introducir nuevos valores distintos de cero (mostrados en púrpura) a la máscara de atención, permitimos que la información fluya entre los usuarios. Hacemos esto al permitir que una predicción condicione todas las interacciones con una marca de tiempo anterior, independientemente de si la interacción provino del mismo usuario o no.

Experimentos

Utilizamos el conjunto de datos de Learning Ally para entrenar el modelo de ESTUDIO junto con múltiples líneas de base para la comparación. Implementamos un decodificador de transformador de tasa de clics autorregresivo, al que nos referimos como «Individual», un k-la línea de base del vecino más cercano (KNN) y una línea de base social comparable, la red de memoria de atención social (SAMN). Usamos los datos del primer año escolar para la capacitación y usamos los datos del segundo año escolar para la validación y las pruebas.

Evaluamos estos modelos midiendo el porcentaje de tiempo que el siguiente elemento con el que el usuario realmente interactuó estuvo en la parte superior del modelo. norte recomendaciones, es decir, hits@norte, para diferentes valores de norte. Además de evaluar los modelos en todo el conjunto de prueba, también informamos las puntuaciones de los modelos en dos subconjuntos del conjunto de prueba que son más desafiantes que todo el conjunto de datos. Observamos que los estudiantes normalmente interactúan con un audiolibro en varias sesiones, por lo que simplemente recomendar el último libro leído por el usuario sería una recomendación trivial fuerte. Por lo tanto, el primer subconjunto de prueba, al que nos referimos como «no continuación», es donde solo observamos el desempeño de cada modelo en las recomendaciones cuando los estudiantes interactúan con libros que son diferentes de la interacción anterior. También observamos que los estudiantes vuelven a leer libros que han leído en el pasado, por lo que se puede lograr un buen desempeño en el conjunto de pruebas al restringir las recomendaciones hechas para cada estudiante solo a los libros que han leído en el pasado. Aunque puede ser valioso recomendar viejos favoritos a los estudiantes, gran parte del valor de los sistemas de recomendación proviene de la aparición de contenido que es nuevo y desconocido para el usuario. Para medir esto, evaluamos los modelos en el subconjunto del conjunto de prueba donde los estudiantes interactúan con un título por primera vez. Llamamos a este subconjunto de evaluación «novedoso».

Encontramos que STUDY supera a todos los demás modelos probados en casi todos los segmentos con los que evaluamos.

En esta figura comparamos el desempeño de cuatro modelos, Estudio, Individual, KNN y SAMN. Medimos el rendimiento con hits@5, es decir, qué tan probable es que el modelo sugiera el siguiente título que el usuario lee dentro de las 5 recomendaciones principales del modelo. Evaluamos el modelo en todo el conjunto de prueba (todo), así como en las divisiones novedosas y de no continuación. Vemos que STUDY supera consistentemente a los otros tres modelos presentados en todas las divisiones.

Importancia de una agrupación adecuada

El corazón del algoritmo STUDY es organizar a los usuarios en grupos y hacer inferencias conjuntas sobre múltiples usuarios que están en el mismo grupo en un solo paso hacia adelante del modelo. Realizamos un estudio de ablación en el que observamos la importancia de las agrupaciones reales utilizadas en el rendimiento del modelo. En nuestro modelo presentado, agrupamos a todos los estudiantes que están en el mismo nivel de grado y escuela. Luego experimentamos con grupos definidos por todos los estudiantes en el mismo nivel de grado y distrito y también colocamos a todos los estudiantes en un solo grupo con un subconjunto aleatorio utilizado para cada pase hacia adelante. También comparamos estos modelos con el modelo individual como referencia.

Descubrimos que el uso de grupos que estaban más localizados era más efectivo, con la agrupación de la escuela y el nivel de grado superando la agrupación del distrito y el nivel de grado. Esto respalda la hipótesis de que el modelo STUDY tiene éxito debido a la naturaleza social de actividades como la lectura: es probable que las elecciones de lectura de las personas se correlacionen con las elecciones de lectura de quienes las rodean. Ambos modelos superaron a los otros dos modelos (grupo único e individual) donde el nivel de grado no se usa para agrupar a los estudiantes. Esto sugiere que los datos de usuarios con niveles de lectura e intereses similares son beneficiosos para el rendimiento.

Trabajo futuro

Este trabajo se limita a modelar recomendaciones para poblaciones de usuarios donde se supone que las conexiones sociales son homogéneas. En el futuro sería beneficioso modelar una población de usuarios donde las relaciones no sean homogéneas, es decir, donde existan tipos de relaciones categóricamente diferentes o donde se conozca la fuerza o influencia relativa de las diferentes relaciones.

Agradecimientos

Este trabajo involucró esfuerzos de colaboración de un equipo multidisciplinario de investigadores, ingenieros de software y expertos en temas educativos. Agradecemos a nuestros coautores: Diana Mincu, Lauren Harrell y Katherine Heller de Google. También agradecemos a nuestros colegas de Learning Ally, Jeff Ho, Akshat Shah, Erin Walker y Tyler Bastian, y a nuestros colaboradores de Google, Marc Repnyek, Aki Estrella, Fernando Diaz, Scott Sanner, Emily Salkey y Lev Proleev.

Deja una respuesta

Tu dirección de correo electrónico no será publicada. Los campos obligatorios están marcados con *