Precios dinámicos con bandidos contextuales: aprender haciendo |  de Massimiliano Costacurta |  octubre de 2023

Agregar contexto a su problema de fijación de precios dinámicos puede aumentar tanto las oportunidades como los desafíos

Foto por Artem Beliaikin en desempaquetar

En mi Artículo anterior, Realicé un análisis exhaustivo de las estrategias más populares para abordar el problema de los precios dinámicos utilizando simples bandidos armados. Si has llegado hasta aquí desde esa pieza, primero, gracias. De ninguna manera es una lectura fácil y realmente aprecio su entusiasmo por el tema. En segundo lugar, prepárate, porque este nuevo artículo promete ser aún más exigente. Sin embargo, si esta es su introducción al tema, le recomiendo encarecidamente comenzar con el artículo anterior. Allí presento conceptos fundamentales, que supongo que los lectores conocen en esta discusión.

De todos modos, un breve resumen: el análisis anterior tenía como objetivo simular un escenario de precios dinámico. El objetivo principal era evaluar lo más rápido posible varios precios para encontrar el que arrojara la recompensa acumulada más alta. Exploramos cuatro algoritmos distintos: codicioso, ε-codicioso, Thompson Sampling y UCB1, detallando las fortalezas y debilidades de cada uno. Aunque la metodología empleada en ese artículo es teóricamente sólida, admite simplificaciones excesivas que no se sostienen en situaciones más complejas del mundo real. La más problemática de estas simplificaciones es el supuesto de que el proceso subyacente es estacionario, lo que significa que el precio óptimo permanece constante independientemente del entorno externo. Claramente este no es el caso. Consideremos, por ejemplo, las fluctuaciones en la demanda durante las temporadas navideñas, los cambios repentinos en los precios de la competencia o los cambios en los costos de las materias primas.

Para solucionar este problema, entran en juego Contextual Bandits. Los bandidos contextuales son una extensión del problema de los bandidos de múltiples brazos donde el agente que toma las decisiones no solo recibe una recompensa por cada acción (o “brazo”) sino que también tiene acceso al contexto o a información relacionada con el entorno antes de elegir un brazo. El contexto puede ser cualquier dato que pueda influir en el resultado, como la demografía del cliente o las condiciones del mercado externo.

Así es como funcionan: antes de decidir qué brazo tirar (o, en nuestro caso, qué precio fijar), el agente observa la corriente…