La aplicación del aprendizaje automático a problemas de toma de decisiones complejas, en particular en situaciones con recursos limitados y resultados inciertos, se ha vuelto muy útil recientemente. En las diversas aplicaciones del aprendizaje automático, lo que distingue a los bandidos multibrazo inquietos (RMAB, por sus siglas en inglés) es su solución a problemas de asignación de recursos de múltiples agentes. Los modelos RMAB representan la gestión de varios puntos de decisión o “brazos”, cada uno de los cuales requiere una selección cuidadosa para maximizar las recompensas acumuladas en cada extremo. Estos modelos han sido fundamentales en campos como la atención médica, donde optimizan el flujo de recursos médicos; la publicidad en línea, donde mejoran la eficiencia de las estrategias de selección de objetivos; y la conservación, donde informan las operaciones contra la caza furtiva. Sin embargo, aún quedan algunos desafíos en la aplicación de los RMAB en la vida real.
Los errores sistemáticos en los datos son uno de los principales problemas que afectan la implementación eficiente del modelo RMAB. Estos errores pueden ser resultado de protocolos de recolección de datos inconsistentes en distintas geografías, ruido agregado para lograr una privacidad diferencial o cambios en los procedimientos de manejo. Errores inherentes como estos conducen a estimaciones de recompensas erróneas y, por lo tanto, pueden dar lugar a decisiones subóptimas por parte del modelo RMAB. Por ejemplo, se ha informado de un caso de sobreestimación de la fecha de parto esperada en el ámbito de la atención de la salud materna, donde los métodos inconsistentes de recolección de datos conducen a la asignación de recursos y a una reducción de los partos en los centros de salud. Estos errores se vuelven particularmente perniciosos cuando afectan solo a algunos de los puntos de decisión (los llamados “brazos ruidosos”) dentro del modelo RMAB.
Se han desarrollado varias variantes de técnicas de aprendizaje profundo para abordar estos problemas. El objetivo es garantizar el rendimiento óptimo de los métodos RMAB en condiciones de datos ruidosos. La mayoría de los enfoques existentes suponen una recopilación de datos confiable de todos los brazos, lo que puede ser cierto solo en algunas aplicaciones del mundo real. Estos métodos a veces pasan por alto las mejores acciones cuando algunos brazos se ven afectados por errores de datos, ya que los llamados falsos óptimos pueden confundirlos: casos en los que el algoritmo confunde una solución subóptima con la mejor. La identificación errónea puede reducir en gran medida la eficiencia y la eficacia, especialmente en aplicaciones de intervención de salud o epidemias de alto riesgo.
Investigadores de la Universidad de Harvard y Google propusieron un nuevo paradigma de aprendizaje dentro de los RMAB: la comunicación. El hecho de compartir los datos entre los distintos brazos de un RMAB les permite ayudarse mutuamente a corregir errores sistemáticos en los datos, mejorando así la calidad de las decisiones. Al abrir la oportunidad para que los brazos se comuniquen, los investigadores esperaban reducir el impacto de los datos ruidosos en el rendimiento de un RMAB. El método propuesto se ha probado en una amplia gama de entornos, desde entornos sintéticos hasta escenarios de atención médica materna y modelos de intervención epidémica, todos los cuales establecen la aplicabilidad de este método en muchas aplicaciones.
El enfoque del aprendizaje de la comunicación utiliza un marco MDP multiagente que ofrece una opción de comunicación con otro brazo de características similares. Cuando un brazo necesita comunicarse, obtiene los parámetros de la función Q del otro brazo y refina su política de comportamiento. Al intercambiar información de esta manera, el brazo puede explorar mejores estrategias y evitar los problemas de acciones subóptimas causadas por datos ruidosos. Los investigadores construyeron una arquitectura de red Q descompuesta para gestionar la utilidad conjunta de la comunicación en todos los brazos. Concretamente, sus experimentos mostraron que la comunicación en ambas direcciones entre brazos ruidosos y no ruidosos podría ser útil si la política de comportamiento del brazo receptor alcanza una cobertura razonable sobre el espacio de estado-acción.
Los investigadores han validado correctamente su enfoque con pruebas empíricas exhaustivas. En las pruebas empíricas, compararon el rendimiento del método de aprendizaje de la comunicación propuesto con el de los métodos de referencia. Por ejemplo, en el entorno artificial RMAB con 15 brazos y un presupuesto de 10, el método propuesto fue mejor que las estrategias de comunicación fija y no comunicativa con un rendimiento aproximado de 10 en la época 600, mejorando significativamente el rendimiento en comparación con la línea base sin comunicación, que alcanzó un rendimiento de aproximadamente 8. Se obtuvieron resultados similares en escenarios del mundo real como el modelo de atención médica materna ARMMAN, donde para un entorno con 48 brazos y un presupuesto de 20, el rendimiento alcanzado por el método fue de 15, en comparación con 12,5 alcanzado por la línea base sin comunicación. Estos resultados muestran cómo este aprendizaje de la comunicación es general en una amplia variedad de dominios de problemas, limitaciones de recursos y niveles de ruido de datos.
En conclusión, el estudio presenta un algoritmo de aprendizaje de comunicación innovador que mejora significativamente el rendimiento de los RMAB en entornos ruidosos. Al permitir que los brazos compartan parámetros de función Q y aprendan de las experiencias de los demás, el método propuesto reduce eficazmente el impacto de los errores sistemáticos de datos. Mejora la eficiencia general de las decisiones de asignación de recursos. Los resultados empíricos, respaldados por un análisis teórico riguroso, demuestran que este enfoque no solo supera a los métodos existentes, sino que también ofrece una mayor solidez y adaptabilidad a los desafíos del mundo real. Este avance en la tecnología RMAB puede revolucionar potencialmente la forma en que se abordan los problemas de asignación de recursos en varios campos, desde la atención médica hasta las políticas públicas, allanando el camino para procesos de toma de decisiones más eficientes y efectivos.
Echa un vistazo a la Papel. Todo el crédito por esta investigación corresponde a los investigadores de este proyecto. Además, no olvides seguirnos en Gorjeo y únete a nuestro Canal de Telegram y LinkedIn Gr¡Arriba!. Si te gusta nuestro trabajo, te encantará nuestro hoja informativa..
No olvides unirte a nuestro Subreddit de más de 48 000 millones de usuarios
Encuentra lo próximo Seminarios web sobre IA aquí
Asif Razzaq es el director ejecutivo de Marktechpost Media Inc. Como ingeniero y emprendedor visionario, Asif está comprometido con aprovechar el potencial de la inteligencia artificial para el bien social. Su iniciativa más reciente es el lanzamiento de una plataforma de medios de inteligencia artificial, Marktechpost, que se destaca por su cobertura en profundidad de noticias sobre aprendizaje automático y aprendizaje profundo que es técnicamente sólida y fácilmente comprensible para una amplia audiencia. La plataforma cuenta con más de 2 millones de visitas mensuales, lo que ilustra su popularidad entre el público.