Precios dinámicos con bandidos contextuales: aprender haciendo | de Massimiliano Costacurta

Agregar contexto a su problema de fijación de precios dinámicos puede aumentar tanto las oportunidades como los desafíos

Foto por Artem Beliaikin en desempaquetar

En mi Artículo anterior, Realicé un análisis exhaustivo de las estrategias más populares para abordar el problema de los precios dinámicos utilizando simples bandidos armados. Si has llegado hasta aquí desde esa pieza, primero, gracias. De ninguna manera es una lectura fácil y realmente aprecio su entusiasmo por el tema. En segundo lugar, prepárate, porque este nuevo artículo promete ser aún más exigente. Sin embargo, si esta es su introducción al tema, le recomiendo encarecidamente comenzar con el artículo anterior. Allí presento conceptos fundamentales, que supongo que los lectores conocen en esta discusión.

De todos modos, un breve resumen: el análisis anterior tenía como objetivo simular un escenario de precios dinámico. El objetivo principal era evaluar lo más rápido posible varios precios para encontrar el que arrojara la recompensa acumulada más alta. Exploramos cuatro algoritmos distintos: codicioso, ε-codicioso, Thompson Sampling y UCB1, detallando las fortalezas y debilidades de cada uno. Aunque la metodología empleada en ese artículo es teóricamente sólida, admite simplificaciones excesivas que no se sostienen en situaciones más complejas del mundo real. La más problemática de estas simplificaciones es el supuesto de que el proceso subyacente es estacionario, lo que significa que el precio óptimo permanece constante independientemente del entorno externo. Claramente este no es el caso. Consideremos, por ejemplo, las fluctuaciones en la demanda durante las temporadas navideñas, los cambios repentinos en los precios de la competencia o los cambios en los costos de las materias primas.

Para solucionar este problema, entran en juego Contextual Bandits. Los bandidos contextuales son una extensión del problema de los bandidos de múltiples brazos donde el agente que toma las decisiones no solo recibe una recompensa por cada acción (o “brazo”) sino que también tiene acceso al contexto o a información relacionada con el entorno antes de elegir un brazo. El contexto puede ser cualquier dato que pueda influir en el resultado, como la demografía del cliente o las condiciones del mercado externo.

Así es como funcionan: antes de decidir qué brazo tirar (o, en nuestro caso, qué precio fijar), el agente observa la corriente…

Precios dinámicos con bandidos contextuales: aprender haciendo | de Massimiliano Costacurta | octubre de 2023

ByEquipo de 7 minutos

Agregar contexto a su problema de fijación de precios dinámicos puede aumentar tanto las oportunidades como los desafíos

By Equipo de 7 minutos

Related Post

Flujo de trabajo de implementación de PyGraphistry para canalizaciones de inteligencia de gráficos interactivos en análisis de seguridad e investigación de riesgos

OpenClaw lanza aplicaciones de nodo complementario para iOS y Android que conectan un teléfono a una puerta de enlace de agente de IA autohospedada

3 preguntas: más allá de la estética basada en datos | Noticias del MIT

You missed

El fondo tecnológico de Bruselas, de 5.000 millones de euros, no ha realizado ni una sola inversión. Francia y el Reino Unido ya están peleando por ello.

¡Las fiestas de verano sacan a relucir los toros! ⋆ Metropolitano de Madrid

Comportamiento peculiar de los murciélagos revelado en una pintura de 400 años de antigüedad: ScienceAlert

Trump los deportó a Venezuela. Horas más tarde, muchos estaban muertos.