El auge de los modelos de dos torres en los sistemas de recomendación |  de Samuel Flender |  octubre de 2023

Una inmersión profunda en la última tecnología utilizada para desviar los modelos de clasificación

Foto por Evgeny Smirnov

Los sistemas de recomendación se encuentran entre las aplicaciones de aprendizaje automático más omnipresentes del mundo actual. Sin embargo, los modelos de clasificación subyacentes están plagados de numerosos prejuicios que puede limitar gravemente la calidad de las recomendaciones resultantes. El problema de crear clasificadores imparciales, también conocido como aprendizaje imparcial de clasificación, ULTR, sigue siendo uno de los problemas de investigación más importantes dentro del ML y aún está lejos de resolverse.

En esta publicación, profundizaremos en un enfoque de modelado particular que hace relativamente poco tiempo ha permitido a la industria controlar los sesgos de manera muy efectiva y así construir sistemas de recomendación muy superiores: el modelo de dos torres, donde una torre aprende relevancia y otra aprende relevancia. La torre (poco profunda) aprende sesgos.

Si bien los modelos de dos torres probablemente se han utilizado en la industria durante varios años, el primer documento que los presentó formalmente a la comunidad de ML en general fue el documento PAL de 2019 de Huawei.

PAL (Huawei, 2019): el modelo OG de dos torres

El papel de Huawei CAMARADA (“Aprendizaje a clasificar según la posición”) considera el problema del sesgo de posición dentro del contexto de la tienda de aplicaciones de Huawei.

Se ha observado un sesgo de posición una y otra vez en los modelos de clasificación de toda la industria. Simplemente significa que es más probable que los usuarios hagan clic en los elementos que se muestran primero. Esto puede deberse a que tienen prisa, a que confían ciegamente en el algoritmo de clasificación u otras razones. Aquí hay un gráfico que demuestra el sesgo de posición en los datos de Huawei:

Sesgo de posición. Fuente: documento de Huawei CAMARADA

El sesgo de posición es un problema porque simplemente no podemos saber si los usuarios hicieron clic en el primer elemento porque de hecho era el más relevante para ellos o porque se mostró primero; y en los sistemas de recomendación nuestro objetivo es resolver el primer objetivo de aprendizaje, no el primero. último.

La solución propuesta en el artículo PAL es factorizar el problema de aprendizaje como

p(click|x,position) = p(click|seen,x) x p(seen|position),